diff --git a/.buildinfo b/.buildinfo
index 85e01e148..a975dc02d 100644
--- a/.buildinfo
+++ b/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
 # This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: e54d1b4e788f1dd051bb72ae18aa701c
+config: 951ec2f7d15cc471c5801ca0c58642a5
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/_c_make_c_compiler_id_8c.html b/_c_make_c_compiler_id_8c.html
new file mode 100644
index 000000000..912a6d567
--- /dev/null
+++ b/_c_make_c_compiler_id_8c.html
@@ -0,0 +1,350 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles/3.28.1/CompilerIdC/CMakeCCompilerId.c File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li><li class="navelem"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></li><li class="navelem"><a class="el" href="dir_dfdf575eb5c21ea09ad9fb656efb7738.html">CompilerIdC</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">CMakeCCompilerId.c File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae5510d82e4946f1656f4969911c54736" name="ae5510d82e4946f1656f4969911c54736"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5510d82e4946f1656f4969911c54736">&#9670;&#160;</a></span>__has_include</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define __has_include</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td>&#160;&#160;&#160;0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba35d0d200deaeb06aee95ca297acb28" name="aba35d0d200deaeb06aee95ca297acb28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba35d0d200deaeb06aee95ca297acb28">&#9670;&#160;</a></span>ARCHITECTURE_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define ARCHITECTURE_ID</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adaee3ee7c5a7a22451ea25e762e1d7d5" name="adaee3ee7c5a7a22451ea25e762e1d7d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adaee3ee7c5a7a22451ea25e762e1d7d5">&#9670;&#160;</a></span>C_VERSION</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define C_VERSION</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81dee0709ded976b2e0319239f72d174" name="a81dee0709ded976b2e0319239f72d174"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81dee0709ded976b2e0319239f72d174">&#9670;&#160;</a></span>COMPILER_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define COMPILER_ID&#160;&#160;&#160;&quot;&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1280362da42492bbc11aa78cbf776ad" name="ad1280362da42492bbc11aa78cbf776ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1280362da42492bbc11aa78cbf776ad">&#9670;&#160;</a></span>DEC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DEC</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">n</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10000000)%10)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 1000000)%10)),  \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 100000)%10)),   \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10000)%10)),    \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 1000)%10)),     \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 100)%10)),      \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10)%10)),       \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> +  ((n) % 10))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a46d5d95daa1bef867bd0179594310ed5" name="a46d5d95daa1bef867bd0179594310ed5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46d5d95daa1bef867bd0179594310ed5">&#9670;&#160;</a></span>HEX</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define HEX</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">n</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;28 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;24 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;20 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;16 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;12 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;8  &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;4  &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)     &amp; 0xF))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="adbc5372f40838899018fadbc89bd588b" name="adbc5372f40838899018fadbc89bd588b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbc5372f40838899018fadbc89bd588b">&#9670;&#160;</a></span>PLATFORM_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PLATFORM_ID</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a43e1cad902b6477bec893cb6430bd6c8" name="a43e1cad902b6477bec893cb6430bd6c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a43e1cad902b6477bec893cb6430bd6c8">&#9670;&#160;</a></span>STRINGIFY</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define STRINGIFY</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></span></td><td>)</td>
+          <td>&#160;&#160;&#160;<a class="el" href="#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">STRINGIFY_HELPER</a>(<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2ae9b72bb13abaabfcf2ee0ba7d3fa1d" name="a2ae9b72bb13abaabfcf2ee0ba7d3fa1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">&#9670;&#160;</a></span>STRINGIFY_HELPER</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define STRINGIFY_HELPER</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></span></td><td>)</td>
+          <td>&#160;&#160;&#160;#<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0ddf1224851353fc92bfbff6f499fa97" name="a0ddf1224851353fc92bfbff6f499fa97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ddf1224851353fc92bfbff6f499fa97">&#9670;&#160;</a></span>main()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int main </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>argc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>argv</em>[]</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a59647e99d304ed33b15cb284c27ed391" name="a59647e99d304ed33b15cb284c27ed391"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59647e99d304ed33b15cb284c27ed391">&#9670;&#160;</a></span>info_arch</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_arch = &quot;INFO&quot; &quot;:&quot; &quot;arch[&quot; ARCHITECTURE_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4b0efeb7a5d59313986b3a0390f050f6" name="a4b0efeb7a5d59313986b3a0390f050f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b0efeb7a5d59313986b3a0390f050f6">&#9670;&#160;</a></span>info_compiler</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_compiler = &quot;INFO&quot; &quot;:&quot; &quot;compiler[&quot; COMPILER_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f46a8a39e09d9b803c4766904fd7e99" name="a0f46a8a39e09d9b803c4766904fd7e99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f46a8a39e09d9b803c4766904fd7e99">&#9670;&#160;</a></span>info_language_extensions_default</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const char* info_language_extensions_default</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">= <span class="stringliteral">&quot;INFO&quot;</span> <span class="stringliteral">&quot;:&quot;</span> <span class="stringliteral">&quot;extensions_default[&quot;</span></div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line">  <span class="stringliteral">&quot;OFF&quot;</span></div>
+<div class="line"> </div>
+<div class="line"><span class="stringliteral">&quot;]&quot;</span></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a4607cccf070750927b458473ca82c090" name="a4607cccf070750927b458473ca82c090"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4607cccf070750927b458473ca82c090">&#9670;&#160;</a></span>info_language_standard_default</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const char* info_language_standard_default</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">  <span class="stringliteral">&quot;INFO&quot;</span> <span class="stringliteral">&quot;:&quot;</span> <span class="stringliteral">&quot;standard_default[&quot;</span> <a class="code hl_define" href="#adaee3ee7c5a7a22451ea25e762e1d7d5">C_VERSION</a> <span class="stringliteral">&quot;]&quot;</span></div>
+<div class="ttc" id="a_c_make_c_compiler_id_8c_html_adaee3ee7c5a7a22451ea25e762e1d7d5"><div class="ttname"><a href="#adaee3ee7c5a7a22451ea25e762e1d7d5">C_VERSION</a></div><div class="ttdeci">#define C_VERSION</div><div class="ttdef"><b>Definition</b> CMakeCCompilerId.c:819</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a2321403dee54ee23f0c2fa849c60f7d4" name="a2321403dee54ee23f0c2fa849c60f7d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2321403dee54ee23f0c2fa849c60f7d4">&#9670;&#160;</a></span>info_platform</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_platform = &quot;INFO&quot; &quot;:&quot; &quot;platform[&quot; PLATFORM_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/_c_make_c_x_x_compiler_id_8cpp.html b/_c_make_c_x_x_compiler_id_8cpp.html
new file mode 100644
index 000000000..283623ae0
--- /dev/null
+++ b/_c_make_c_x_x_compiler_id_8cpp.html
@@ -0,0 +1,362 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles/3.28.1/CompilerIdCXX/CMakeCXXCompilerId.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li><li class="navelem"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></li><li class="navelem"><a class="el" href="dir_d8fa031c2715d8d52539c7e4d4cc6d73.html">CompilerIdCXX</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">CMakeCXXCompilerId.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae5510d82e4946f1656f4969911c54736" name="ae5510d82e4946f1656f4969911c54736"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5510d82e4946f1656f4969911c54736">&#9670;&#160;</a></span>__has_include</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define __has_include</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td>&#160;&#160;&#160;0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba35d0d200deaeb06aee95ca297acb28" name="aba35d0d200deaeb06aee95ca297acb28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba35d0d200deaeb06aee95ca297acb28">&#9670;&#160;</a></span>ARCHITECTURE_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define ARCHITECTURE_ID</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81dee0709ded976b2e0319239f72d174" name="a81dee0709ded976b2e0319239f72d174"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81dee0709ded976b2e0319239f72d174">&#9670;&#160;</a></span>COMPILER_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define COMPILER_ID&#160;&#160;&#160;&quot;&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34cc889e576a1ae6c84ae9e0a851ba21" name="a34cc889e576a1ae6c84ae9e0a851ba21"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34cc889e576a1ae6c84ae9e0a851ba21">&#9670;&#160;</a></span>CXX_STD</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define CXX_STD&#160;&#160;&#160;__cplusplus</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1280362da42492bbc11aa78cbf776ad" name="ad1280362da42492bbc11aa78cbf776ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1280362da42492bbc11aa78cbf776ad">&#9670;&#160;</a></span>DEC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DEC</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">n</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10000000)%10)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 1000000)%10)),  \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 100000)%10)),   \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10000)%10)),    \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 1000)%10)),     \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 100)%10)),      \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + (((n) / 10)%10)),       \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> +  ((n) % 10))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a46d5d95daa1bef867bd0179594310ed5" name="a46d5d95daa1bef867bd0179594310ed5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46d5d95daa1bef867bd0179594310ed5">&#9670;&#160;</a></span>HEX</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define HEX</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">n</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;28 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;24 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;20 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;16 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;12 &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;8  &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)&gt;&gt;4  &amp; 0xF)), \</div>
+<div class="line">  (<span class="charliteral">&#39;0&#39;</span> + ((n)     &amp; 0xF))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="adbc5372f40838899018fadbc89bd588b" name="adbc5372f40838899018fadbc89bd588b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbc5372f40838899018fadbc89bd588b">&#9670;&#160;</a></span>PLATFORM_ID</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PLATFORM_ID</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a43e1cad902b6477bec893cb6430bd6c8" name="a43e1cad902b6477bec893cb6430bd6c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a43e1cad902b6477bec893cb6430bd6c8">&#9670;&#160;</a></span>STRINGIFY</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define STRINGIFY</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></span></td><td>)</td>
+          <td>&#160;&#160;&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">STRINGIFY_HELPER</a>(<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2ae9b72bb13abaabfcf2ee0ba7d3fa1d" name="a2ae9b72bb13abaabfcf2ee0ba7d3fa1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">&#9670;&#160;</a></span>STRINGIFY_HELPER</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define STRINGIFY_HELPER</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></span></td><td>)</td>
+          <td>&#160;&#160;&#160;#<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0ddf1224851353fc92bfbff6f499fa97" name="a0ddf1224851353fc92bfbff6f499fa97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ddf1224851353fc92bfbff6f499fa97">&#9670;&#160;</a></span>main()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int main </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>argc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>argv</em>[]</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a59647e99d304ed33b15cb284c27ed391" name="a59647e99d304ed33b15cb284c27ed391"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59647e99d304ed33b15cb284c27ed391">&#9670;&#160;</a></span>info_arch</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_arch = &quot;INFO&quot; &quot;:&quot; &quot;arch[&quot; ARCHITECTURE_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4b0efeb7a5d59313986b3a0390f050f6" name="a4b0efeb7a5d59313986b3a0390f050f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b0efeb7a5d59313986b3a0390f050f6">&#9670;&#160;</a></span>info_compiler</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_compiler = &quot;INFO&quot; &quot;:&quot; &quot;compiler[&quot; COMPILER_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f46a8a39e09d9b803c4766904fd7e99" name="a0f46a8a39e09d9b803c4766904fd7e99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f46a8a39e09d9b803c4766904fd7e99">&#9670;&#160;</a></span>info_language_extensions_default</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const char* info_language_extensions_default</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">= <span class="stringliteral">&quot;INFO&quot;</span> <span class="stringliteral">&quot;:&quot;</span> <span class="stringliteral">&quot;extensions_default[&quot;</span></div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line">  <span class="stringliteral">&quot;OFF&quot;</span></div>
+<div class="line"> </div>
+<div class="line"><span class="stringliteral">&quot;]&quot;</span></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a4607cccf070750927b458473ca82c090" name="a4607cccf070750927b458473ca82c090"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4607cccf070750927b458473ca82c090">&#9670;&#160;</a></span>info_language_standard_default</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const char* info_language_standard_default</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">= <span class="stringliteral">&quot;INFO&quot;</span> <span class="stringliteral">&quot;:&quot;</span> <span class="stringliteral">&quot;standard_default[&quot;</span></div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line">  <span class="stringliteral">&quot;98&quot;</span></div>
+<div class="line"> </div>
+<div class="line"><span class="stringliteral">&quot;]&quot;</span></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a2321403dee54ee23f0c2fa849c60f7d4" name="a2321403dee54ee23f0c2fa849c60f7d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2321403dee54ee23f0c2fa849c60f7d4">&#9670;&#160;</a></span>info_platform</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char const* info_platform = &quot;INFO&quot; &quot;:&quot; &quot;platform[&quot; PLATFORM_ID &quot;]&quot;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/_images/ExampleDocsOutput.png b/_images/ExampleDocsOutput.png
new file mode 100644
index 000000000..162c5610d
Binary files /dev/null and b/_images/ExampleDocsOutput.png differ
diff --git a/_sources/cpp-api/memory_utils.rst.txt b/_sources/cpp-api/memory_utils.rst.txt
index e1792d0cc..81c854f94 100644
--- a/_sources/cpp-api/memory_utils.rst.txt
+++ b/_sources/cpp-api/memory_utils.rst.txt
@@ -1,5 +1,5 @@
 CUDA Memory Operators
 =====================
 
-.. doxygengroup:: memory-utils
+.. doxygengroup:: cumem-utils
    :content-only:
diff --git a/_sources/cpp-api/quantize_ops.rst.txt b/_sources/cpp-api/quantize_ops.rst.txt
index c55bf817b..70ed43d02 100644
--- a/_sources/cpp-api/quantize_ops.rst.txt
+++ b/_sources/cpp-api/quantize_ops.rst.txt
@@ -2,7 +2,8 @@ Quantization Operators
 ===========================
 
 Quantization is a model optimization technique to reduce the size of a large
-model in order to achieve better storage performance with a small loss in accuracy.
+model in order to achieve better storage performance with a small loss in
+accuracy.
 
 CUDA Operators
 --------------
diff --git a/_sources/cpp-api/sparse_ops.rst.txt b/_sources/cpp-api/sparse_ops.rst.txt
index 16a7d05a6..13752778d 100644
--- a/_sources/cpp-api/sparse_ops.rst.txt
+++ b/_sources/cpp-api/sparse_ops.rst.txt
@@ -1,13 +1,13 @@
 Sparse Data Operators
 =====================
 
-Sparse Data CUDA Operators
+CUDA Operators
 --------------------------
 
 .. doxygengroup:: sparse-data-cuda
    :content-only:
 
-Sparse Data CPU Operators
+CPU Operators
 --------------------------
 
 .. doxygengroup:: sparse-data-cpu
diff --git a/_sources/general/BuildInstructions.rst.txt b/_sources/general/BuildInstructions.rst.txt
index e51bf36f9..4a1734d47 100644
--- a/_sources/general/BuildInstructions.rst.txt
+++ b/_sources/general/BuildInstructions.rst.txt
@@ -1,8 +1,8 @@
 Build Instructions
 ==================
 
-**Note:** The most up-to-date instructions are embedded in a set of scripts
-bundled in the FBGEMM_GPU repo under
+**Note:** The most up-to-date build instructions are embedded in a set of
+scripts bundled in the FBGEMM_GPU repo under
 `setup_env.bash <https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash>`_.
 
 The general steps for building FBGEMM_GPU are as follows:
@@ -255,6 +255,7 @@ Install the other necessary build tools such as ``ninja``, ``cmake``, etc:
       cmake \
       hypothesis \
       jinja2 \
+      make \
       ninja \
       numpy \
       scikit-build \
@@ -379,6 +380,8 @@ build cache:
 
   python setup.py clean
 
+.. _fbgemm-gpu.docs.build.process.cuda:
+
 CUDA Build
 ~~~~~~~~~~
 
@@ -436,6 +439,8 @@ CUDA device, however, is not required for building the package.
       --nvml_lib_path=${NVML_LIB_PATH} \
       -DTORCH_CUDA_ARCH_LIST="${cuda_arch_list}"
 
+.. _fbgemm-gpu.docs.build.process.rocm:
+
 ROCm Build
 ~~~~~~~~~~
 
@@ -474,6 +479,8 @@ the package.
       -DCMAKE_C_FLAGS="-DTORCH_USE_HIP_DSA" \
       -DCMAKE_CXX_FLAGS="-DTORCH_USE_HIP_DSA"
 
+.. _fbgemm-gpu.docs.build.process.cpu:
+
 CPU-Only Build
 ~~~~~~~~~~~~~~
 
diff --git a/_sources/general/DocsInstructions.rst.txt b/_sources/general/DocsInstructions.rst.txt
new file mode 100644
index 000000000..37cbd2868
--- /dev/null
+++ b/_sources/general/DocsInstructions.rst.txt
@@ -0,0 +1,235 @@
+Contributing Documentation
+==========================
+
+FBGEMM_GPU provides extensive comments in its source files, which provide the
+most authoritative and up-to-date documentation available for the package.
+
+
+Building the API Documentation
+------------------------------
+
+**Note:** The most up-to-date documentation build instructions are embedded in
+a set of scripts bundled in the FBGEMM_GPU repo under
+`setup_env.bash <https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash>`_.
+
+The general steps for building the FBGEMM_GPU documentation are as follows:
+
+#. Set up an isolated build environment.
+#. Build FBGEMM_GPU (CPU variant).
+#. Set up the documentation toolchain.
+#. Run documentation build scripts.
+
+Set Up Build Environment
+~~~~~~~~~~~~~~~~~~~~~~~~
+
+Follow the instructions for setting up the Conda environment at
+:ref:`fbgemm-gpu.docs.build.setup.env`.
+
+Build FBGEMM_GPU
+~~~~~~~~~~~~~~~~
+
+A build pass of FBGEMM_GPU is required for the documentation to be built
+correctly.  Follow the instructions in
+:ref:`fbgemm-gpu.docs.build.setup.tools.install`, followed by
+:ref:`fbgemm-gpu.docs.build.process.cpu`, to build FBGEMM_GPU (CPU variant).
+
+Set Up Documentation Toolchain
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+.. code:: sh
+
+  # !! Run inside the Conda environment !!
+
+  # From the /fbgemm_gpu/ directory
+  cd docs
+
+  # Install Sphinx and other docs tools
+  pip install -r requirements.txt
+
+  # Install Doxygen and Make
+  conda install -c conda-forge -y doxygen make
+
+Build the Documentation
+~~~~~~~~~~~~~~~~~~~~~~~
+
+.. code:: sh
+
+  # Generate the C++ documentation
+  make doxygen
+
+  # Generate the Python documentation and assemble together with the C++ documentation
+  make html
+
+After the build completes, view the generated documentation:
+
+.. code:: sh
+
+  sphinx-serve -b build
+
+Deployment Preview
+~~~~~~~~~~~~~~~~~~
+
+As a PyTorch project, a preview of the FBGEMM_GPU documentation will be
+automatically built and deployed by `Netlify <https://www.netlify.com/>`__
+when pull requests are made.  When the build completes, the deployment preview
+can be found at:
+
+.. code:: sh
+
+  https://deploy-preview-<PR NUMBER>>--pytorch-fbgemm-docs.netlify.app/
+
+
+General Documentation Guidelines
+--------------------------------
+
+When new public API methods are added, they should be accompanied by sufficient
+documentation.  Here are some guidelines for documenting FBGEMM_GPU code:
+
+* Code by itself is not documentation! Put yourself in the shoes of new
+  developers who has to understand what your code does, and make their lives
+  easier.
+
+* Documentation should be added for any and all public API methods.
+
+* Don't leave docstring-writing as a separate task.
+
+* Write docstrings together with the code.
+
+* At a very minimum, add:
+
+  *  A description of the method.
+  *  A description for each argument that can be passed into the method.
+  *  A description of the method's return value.
+
+*  Add usage examples, links to other methods, and method invocation limitations.
+
+
+Adding Documentation to Python Code
+-----------------------------------
+
+Documentation for Python is provided through docstrings and generated using
+`Sphinx <https://www.sphinx-doc.org/en/master/>`__.  Please reference the
+`Google-style Python docstrings
+<https://www.sphinx-doc.org/en/master/usage/extensions/example_google.html>`__
+guide for docstring formatting examples.
+
+Please add Python docstrings to the ``.py`` files under the name of the
+method:
+
+.. code:: python
+
+  def example_function():
+      """
+      This class is an example of how you can write docstrings.
+      You can add multiple lines of those descriptions. Make sure to include
+      useful information about your method.
+
+      Args:
+          arg1 (int): This is the first arg that you can pass with this function.
+
+      Returns:
+          This function returns X.
+
+      Raises:
+          AttributeError: This function raises an error.
+
+      Example:
+          This is how you can use this function
+
+          >>> print("Code blocks are supported")
+
+      Note:
+         You can find more information
+      """
+
+Adding docstrings does not automatically publish them to the package
+documentation.  To publish new docstrings:
+
+#.  Add the module method to its corresponding ``.rst`` file.
+
+#.  To preview locally, run ``make html``.
+
+#.  Verify the changes by building the docs locally or submitting a PR for a
+    Netlify preview.
+
+
+Adding Documentation to C++ Code
+--------------------------------
+
+Documentation for C++ is provided through
+`Javadoc-style comments <https://www.oracle.com/technical-resources/articles/java/javadoc-tool.html>`__
+and generated using Sphinx + `Doxygen <https://www.doxygen.nl/>`__ +
+`Breathe <https://www.breathe-doc.org/>`__.
+
+
+Documentation is kept in header files with the ``.h`` extension as well as in
+``.cpp``, ``cu``, and ``cuh`` files. In these files, everything between
+``#ifndef DOXYGEN_THIS_WILL_BE_SKIPPED`` and ``#endif`` will be hidden from the
+HTML output. At the moment, undocumented functions are hidden in these tags.
+When you add descriptionss to a function, make sure that the ``#ifndef`` and
+``#endif`` are configured correctly.
+
+All functions are grouped by a specific group for better organization.
+Make sure you add ``@defgroup`` to the code comments.
+
+Follow these instructions to document, generate, and publish a new C++
+description:
+
+#.  Add a description to the source header file. At a very minimum, add a
+    description verbatim, parameters by using the ``@param`` tag, and
+    return value by using the @return tag. You can other tags as needed.
+    Here is an example of how it can look:
+
+    .. code:: cpp
+
+      /// @defgroup example-method-group Example Method Group
+      /// This is a description of the example method group.
+
+      /// @ingroup example-method-group
+      /// Description of `example_method`
+      ///
+      /// **Example:**
+      /// ```python
+      /// # Here is a Python code block
+      /// def foo(lst: List[int]):
+      ///   return [ x ** 2 for x in lst ]
+      /// ```
+      ///
+      /// @param param1 Description of param #1
+      /// @param param2 Description of param #2
+      ///
+      /// @return Description of the method's return value.
+      /// @throw fbgemm_gpu::my_error if an error occurs
+      ///
+      /// @note This is an example note.
+      /// @warning This is an example  warning.
+      /// @see For more info, see <a href="https://www.doxygen.nl/manual/commands.html#cmdlink">here</a>.
+      int32_t example_method(bool foo, float bar);
+
+#.  Add a ``doxygengroup`` directive to the corresponding ``.rst`` file.  If
+    an ``.rst`` file for the corresponding header file does not exist, create a
+    new one by the same name as the header file.  If an ``.rst`` file already
+    exists, make sure the ``doxygengroup`` is defined in that file.
+    Using the above example:
+
+    .. code:: rst
+
+      Example Methods Group
+      ---------------------
+
+      .. doxygengroup:: example-method-group
+        :content-only:
+
+    This example generates the following HTML output:
+
+    .. image:: ExampleDocsOutput.png
+
+#.  Make sure the ``.rst`` file is included in to the ``toctree`` in
+    ``index.rst`` (:ref:`fbgemm-gpu.docs.toc.cpp`).
+
+#.  The C++ source header file needs to be in one of the directories listed in
+    the ``INPUT`` parameter in ``Doxygen.ini``.  If it's in a directory not
+    listed, be sure to append the directory path to the parameter.
+
+#.  Verify the changes by building the docs locally or submitting a PR for a
+    Netlify preview.
diff --git a/_sources/general/InstallationInstructions.rst.txt b/_sources/general/InstallationInstructions.rst.txt
index 33a1ed775..873fbef5e 100644
--- a/_sources/general/InstallationInstructions.rst.txt
+++ b/_sources/general/InstallationInstructions.rst.txt
@@ -1,8 +1,8 @@
 Installation Instructions
 =========================
 
-**Note:** The most up-to-date instructions are embedded in a set of scripts
-bundled in the FBGEMM_GPU repo under
+**Note:** The most up-to-date installation instructions are embedded in a set
+of scripts bundled in the FBGEMM_GPU repo under
 `setup_env.bash <https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash>`_.
 
 The general steps for installing FBGEMM_GPU are as follows:
diff --git a/_sources/index.rst.txt b/_sources/index.rst.txt
index c81aaac64..2b1139d46 100644
--- a/_sources/index.rst.txt
+++ b/_sources/index.rst.txt
@@ -9,6 +9,8 @@ Welcome to FBGEMM's documentation!
 This documentation provides a comprehensive reference of the `fbgemm_gpu`
 library.
 
+.. _fbgemm-gpu.docs.toc.general:
+
 .. toctree::
    :maxdepth: 2
    :caption: FBGEMM_GPU General Info
@@ -16,7 +18,9 @@ library.
    general/BuildInstructions.rst
    general/InstallationInstructions.rst
    general/TestInstructions.rst
+   general/DocsInstructions.rst
 
+.. _fbgemm-gpu.docs.toc.python:
 
 .. toctree::
    :maxdepth: 2
@@ -25,6 +29,7 @@ library.
    python-api/table_batched_embedding_ops.rst
    python-api/jagged_tensor_ops.rst
 
+.. _fbgemm-gpu.docs.toc.cpp:
 
 .. toctree::
    :maxdepth: 2
diff --git a/_sources/pytorch-sphinx-theme/CODE_OF_CONDUCT.md.txt b/_sources/pytorch-sphinx-theme/CODE_OF_CONDUCT.md.txt
deleted file mode 100644
index 4bd525a54..000000000
--- a/_sources/pytorch-sphinx-theme/CODE_OF_CONDUCT.md.txt
+++ /dev/null
@@ -1,76 +0,0 @@
-# Code of Conduct
-
-## Our Pledge
-
-In the interest of fostering an open and welcoming environment, we as
-contributors and maintainers pledge to make participation in our project and
-our community a harassment-free experience for everyone, regardless of age, body
-size, disability, ethnicity, sex characteristics, gender identity and expression,
-level of experience, education, socio-economic status, nationality, personal
-appearance, race, religion, or sexual identity and orientation.
-
-## Our Standards
-
-Examples of behavior that contributes to creating a positive environment
-include:
-
-* Using welcoming and inclusive language
-* Being respectful of differing viewpoints and experiences
-* Gracefully accepting constructive criticism
-* Focusing on what is best for the community
-* Showing empathy towards other community members
-
-Examples of unacceptable behavior by participants include:
-
-* The use of sexualized language or imagery and unwelcome sexual attention or
-advances
-* Trolling, insulting/derogatory comments, and personal or political attacks
-* Public or private harassment
-* Publishing others' private information, such as a physical or electronic
-address, without explicit permission
-* Other conduct which could reasonably be considered inappropriate in a
-professional setting
-
-## Our Responsibilities
-
-Project maintainers are responsible for clarifying the standards of acceptable
-behavior and are expected to take appropriate and fair corrective action in
-response to any instances of unacceptable behavior.
-
-Project maintainers have the right and responsibility to remove, edit, or
-reject comments, commits, code, wiki edits, issues, and other contributions
-that are not aligned to this Code of Conduct, or to ban temporarily or
-permanently any contributor for other behaviors that they deem inappropriate,
-threatening, offensive, or harmful.
-
-## Scope
-
-This Code of Conduct applies within all project spaces, and it also applies when
-an individual is representing the project or its community in public spaces.
-Examples of representing a project or community include using an official
-project e-mail address, posting via an official social media account, or acting
-as an appointed representative at an online or offline event. Representation of
-a project may be further defined and clarified by project maintainers.
-
-## Enforcement
-
-Instances of abusive, harassing, or otherwise unacceptable behavior may be
-reported by contacting the project team at <opensource-conduct@fb.com>. All
-complaints will be reviewed and investigated and will result in a response that
-is deemed necessary and appropriate to the circumstances. The project team is
-obligated to maintain confidentiality with regard to the reporter of an incident.
-Further details of specific enforcement policies may be posted separately.
-
-Project maintainers who do not follow or enforce the Code of Conduct in good
-faith may face temporary or permanent repercussions as determined by other
-members of the project's leadership.
-
-## Attribution
-
-This Code of Conduct is adapted from the [Contributor Covenant][homepage], version 1.4,
-available at https://www.contributor-covenant.org/version/1/4/code-of-conduct.html
-
-[homepage]: https://www.contributor-covenant.org
-
-For answers to common questions about this code of conduct, see
-https://www.contributor-covenant.org/faq
diff --git a/_sources/pytorch-sphinx-theme/CONTRIBUTING.md.txt b/_sources/pytorch-sphinx-theme/CONTRIBUTING.md.txt
deleted file mode 100644
index e1655f56d..000000000
--- a/_sources/pytorch-sphinx-theme/CONTRIBUTING.md.txt
+++ /dev/null
@@ -1,31 +0,0 @@
-# Contributing to pytorch_sphinx_theme
-We want to make contributing to this project as easy and transparent as
-possible.
-
-## Pull Requests
-We actively welcome your pull requests.
-
-1. Fork the repo and create your branch from `master`.
-2. If you've added code that should be tested, add tests.
-3. If you've changed APIs, update the documentation.
-4. Ensure the test suite passes.
-5. Make sure your code lints.
-6. If you haven't already, complete the Contributor License Agreement ("CLA").
-
-## Contributor License Agreement ("CLA")
-In order to accept your pull request, we need you to submit a CLA. You only need
-to do this once to work on any of Facebook's open source projects.
-
-Complete your CLA here: <https://code.facebook.com/cla>
-
-## Issues
-We use GitHub issues to track public bugs. Please ensure your description is
-clear and has sufficient instructions to be able to reproduce the issue.
-
-Facebook has a [bounty program](https://www.facebook.com/whitehat/) for the safe
-disclosure of security bugs. In those cases, please go through the process
-outlined on that page and do not file a public issue.
-
-## License
-By contributing to pytorch_sphinx_theme, you agree that your contributions will be licensed
-under the LICENSE file in the root directory of this source tree.
\ No newline at end of file
diff --git a/_sources/pytorch-sphinx-theme/README.md.txt b/_sources/pytorch-sphinx-theme/README.md.txt
deleted file mode 100644
index 5d2aeeb83..000000000
--- a/_sources/pytorch-sphinx-theme/README.md.txt
+++ /dev/null
@@ -1,188 +0,0 @@
-# PyTorch Sphinx Theme
-
-Sphinx theme for [PyTorch Docs](https://pytorch.org/docs/master/torch.html) and [PyTorch Tutorials](https://pytorch.org/tutorials) based on the [Read the Docs Sphinx Theme](https://sphinx-rtd-theme.readthedocs.io/en/latest).
-
-## Local Development
-
-Run python setup:
-
-```
-git clone https://github.com/pytorch/pytorch_sphinx_theme
-pip install -e pytorch_sphinx_theme
-```
-
-and install the dependencies using `pip install -r docs/requirements.txt`
-
-In the root directory install the `package.json`:
-
-```
-# node version 8.4.0
-yarn install
-```
-
-If you have `npm` installed then run:
-
-```
-npm install
-```
-
-- If you want to see generated documentation for `docs/demo` then create
-`.env.json` file and make it empty json file. Means `.env.json file` will
-contain
-
-```
-{}
-```
-
-Run grunt to build the html site and enable live reloading of the demo app at `localhost:1919`:
-
-```
-grunt
-```
-
-- If you want to specify the project folder (docs or tutorial for which
-you want to see docs generated) then you need to specify it into `.env.json`
-file:
-
-```
-{
-    "DOCS_DIR": "docs/",
-    "TUTORIALS_DIR": "path/to/tutorial/directory"
-}
-```
-
-Run grunt to build the html site for docs:
-
-```
-grunt --project=docs
-```
-
-and to build the html site for tutorial:
-
-```
-grunt --project=tutorials
-```
-
-The resulting site is a demo.
-
-## Testing your changes and submitting a PR
-
-When you are ready to submit a PR with your changes you can first test that your changes have been applied correctly against either the PyTorch Docs or Tutorials repo:
-
-1. Run the `grunt build` task on your branch and commit the build to Github.
-2. In your local docs or tutorials repo, remove any existing `pytorch_sphinx_theme` packages in the `src` folder (there should be a `pip-delete-this-directory.txt` file there)
-3. Clone the repo locally `git clone https://github.com/pytorch/pytorch_sphinx_theme`
-4. Install `pytorch_sphinx_theme` by running `pip install -e pytorch_sphinx_theme`
-5. Install the requirements `pip install -r requirements.txt`
-6. Remove the current build. In the docs this is `make clean`, tutorials is `make clean-cache`
-7. Build the static site. In the docs this is `make html`, tutorials is `make html-noplot`
-8. Open the site and look around. In the docs open `docs/build/html/index.html`, in the tutorials open `_build/html.index.html`
-
-If your changes have been applied successfully, remove the build commit from your branch and submit your PR.
-
-## Publishing the theme
-
-Before the new changes are visible in the theme the maintainer will need to run the build process:
-
-```
-grunt build
-```
-
-Once that is successful commit the change to Github.
-
-### Developing locally against PyTorch Docs and Tutorials
-
-To be able to modify and preview the theme locally against the PyTorch Docs and/or the PyTorch Tutorials first clone the repositories:
-
-- [PyTorch (Docs)](https://github.com/pytorch/pytorch)
-- [PyTorch Tutorials](https://github.com/pytorch/tutorials)
-
-Then follow the instructions in each repository to make the docs.
-
-Once the docs have been successfully generated you should be able to run the following to create an html build.
-
-#### Docs
-
-```
-# in ./docs
-make html
-```
-
-#### Tutorials
-
-```
-# root directory
-make html
-```
-
-Once these are successful, navigate to the `conf.py` file in each project. In the Docs these are at `./docs/source`. The Tutorials one can be found in the root directory.
-
-In `conf.py` change the html theme to `pytorch_sphinx_theme` and point the html theme path to this repo's local folder, which will end up looking something like:
-
-```
-html_theme = 'pytorch_sphinx_theme'
-html_theme_path = ["../../../pytorch_sphinx_theme"]
-```
-
-Next create a file `.env.json` in the root of this repo with some keys/values referencing the local folders of the Docs and Tutorials repos:
-
-```
-{
-  "TUTORIALS_DIR": "../tutorials",
-  "DOCS_DIR": "../pytorch/docs/source"
-}
-
-```
-
-You can then build the Docs or Tutorials by running
-
-```
-grunt --project=docs
-```
-or
-
-```
-grunt --project=tutorials
-```
-
-These will generate a live-reloaded local build for the respective projects available at `localhost:1919`.
-
-Note that while live reloading works these two projects are hefty and will take a few seconds to build and reload, especially the Docs.
-
-### Built-in Stylesheets and Fonts
-
-There are a couple of stylesheets and fonts inside the Docs and Tutorials repos themselves meant to override the existing theme. To ensure the most accurate styles we should comment out those files until the maintainers of those repos remove them:
-
-#### Docs
-
-```
-# ./docs/source/conf.py
-
-html_context = {
-    # 'css_files': [
-    #     'https://fonts.googleapis.com/css?family=Lato',
-    #     '_static/css/pytorch_theme.css'
-    # ],
-}
-```
-
-#### Tutorials
-
-```
-# ./conf.py
-
-# app.add_stylesheet('css/pytorch_theme.css')
-# app.add_stylesheet('https://fonts.googleapis.com/css?family=Lato')
-```
-
-### Top/Mobile Navigation
-
-The top navigation and mobile menu expect an "active" state for one of the menu items. To ensure that either "Docs" or "Tutorials" is marked as active, set the following config value in the respective `conf.py`, where `{project}` is either `"docs"` or `"tutorials"`.
-
-```
-html_theme_options = {
-  ...
-  'pytorch_project': {project}
-  ...
-}
-```
diff --git a/_static/basic.css b/_static/basic.css
index 24a49f09b..7577acb1a 100644
--- a/_static/basic.css
+++ b/_static/basic.css
@@ -4,7 +4,7 @@
  *
  * Sphinx stylesheet -- basic theme.
  *
- * :copyright: Copyright 2007-2020 by the Sphinx team, see AUTHORS.
+ * :copyright: Copyright 2007-2023 by the Sphinx team, see AUTHORS.
  * :license: BSD, see LICENSE for details.
  *
  */
@@ -130,7 +130,7 @@ ul.search li a {
     font-weight: bold;
 }
 
-ul.search li div.context {
+ul.search li p.context {
     color: #888;
     margin: 2px 0 0 30px;
     text-align: left;
@@ -222,7 +222,7 @@ table.modindextable td {
 /* -- general body styles --------------------------------------------------- */
 
 div.body {
-    min-width: 450px;
+    min-width: 360px;
     max-width: 800px;
 }
 
@@ -237,16 +237,6 @@ a.headerlink {
     visibility: hidden;
 }
 
-a.brackets:before,
-span.brackets > a:before{
-    content: "[";
-}
-
-a.brackets:after,
-span.brackets > a:after {
-    content: "]";
-}
-
 h1:hover > a.headerlink,
 h2:hover > a.headerlink,
 h3:hover > a.headerlink,
@@ -277,25 +267,25 @@ p.rubric {
     font-weight: bold;
 }
 
-img.align-left, .figure.align-left, object.align-left {
+img.align-left, figure.align-left, .figure.align-left, object.align-left {
     clear: left;
     float: left;
     margin-right: 1em;
 }
 
-img.align-right, .figure.align-right, object.align-right {
+img.align-right, figure.align-right, .figure.align-right, object.align-right {
     clear: right;
     float: right;
     margin-left: 1em;
 }
 
-img.align-center, .figure.align-center, object.align-center {
+img.align-center, figure.align-center, .figure.align-center, object.align-center {
   display: block;
   margin-left: auto;
   margin-right: auto;
 }
 
-img.align-default, .figure.align-default {
+img.align-default, figure.align-default, .figure.align-default {
   display: block;
   margin-left: auto;
   margin-right: auto;
@@ -319,7 +309,8 @@ img.align-default, .figure.align-default {
 
 /* -- sidebars -------------------------------------------------------------- */
 
-div.sidebar {
+div.sidebar,
+aside.sidebar {
     margin: 0 0 0.5em 1em;
     border: 1px solid #ddb;
     padding: 7px;
@@ -334,12 +325,16 @@ p.sidebar-title {
     font-weight: bold;
 }
 
+nav.contents,
+aside.topic,
 div.admonition, div.topic, blockquote {
     clear: left;
 }
 
 /* -- topics ---------------------------------------------------------------- */
 
+nav.contents,
+aside.topic,
 div.topic {
     border: 1px solid #ccc;
     padding: 7px;
@@ -377,12 +372,18 @@ div.body p.centered {
 /* -- content of sidebars/topics/admonitions -------------------------------- */
 
 div.sidebar > :last-child,
+aside.sidebar > :last-child,
+nav.contents > :last-child,
+aside.topic > :last-child,
 div.topic > :last-child,
 div.admonition > :last-child {
     margin-bottom: 0;
 }
 
 div.sidebar::after,
+aside.sidebar::after,
+nav.contents::after,
+aside.topic::after,
 div.topic::after,
 div.admonition::after,
 blockquote::after {
@@ -425,10 +426,6 @@ table.docutils td, table.docutils th {
     border-bottom: 1px solid #aaa;
 }
 
-table.footnote td, table.footnote th {
-    border: 0 !important;
-}
-
 th {
     text-align: left;
     padding-right: 5px;
@@ -455,20 +452,22 @@ td > :last-child {
 
 /* -- figures --------------------------------------------------------------- */
 
-div.figure {
+div.figure, figure {
     margin: 0.5em;
     padding: 0.5em;
 }
 
-div.figure p.caption {
+div.figure p.caption, figcaption {
     padding: 0.3em;
 }
 
-div.figure p.caption span.caption-number {
+div.figure p.caption span.caption-number,
+figcaption span.caption-number {
     font-style: italic;
 }
 
-div.figure p.caption span.caption-text {
+div.figure p.caption span.caption-text,
+figcaption span.caption-text {
 }
 
 /* -- field list styles ----------------------------------------------------- */
@@ -503,6 +502,63 @@ table.hlist td {
     vertical-align: top;
 }
 
+/* -- object description styles --------------------------------------------- */
+
+.sig {
+	font-family: 'Consolas', 'Menlo', 'DejaVu Sans Mono', 'Bitstream Vera Sans Mono', monospace;
+}
+
+.sig-name, code.descname {
+    background-color: transparent;
+    font-weight: bold;
+}
+
+.sig-name {
+	font-size: 1.1em;
+}
+
+code.descname {
+    font-size: 1.2em;
+}
+
+.sig-prename, code.descclassname {
+    background-color: transparent;
+}
+
+.optional {
+    font-size: 1.3em;
+}
+
+.sig-paren {
+    font-size: larger;
+}
+
+.sig-param.n {
+	font-style: italic;
+}
+
+/* C++ specific styling */
+
+.sig-inline.c-texpr,
+.sig-inline.cpp-texpr {
+	font-family: unset;
+}
+
+.sig.c   .k, .sig.c   .kt,
+.sig.cpp .k, .sig.cpp .kt {
+	color: #0033B3;
+}
+
+.sig.c   .m,
+.sig.cpp .m {
+	color: #1750EB;
+}
+
+.sig.c   .s, .sig.c   .sc,
+.sig.cpp .s, .sig.cpp .sc {
+	color: #067D17;
+}
+
 
 /* -- other body styles ----------------------------------------------------- */
 
@@ -553,19 +609,26 @@ ul.simple p {
     margin-bottom: 0;
 }
 
-dl.footnote > dt,
-dl.citation > dt {
+aside.footnote > span,
+div.citation > span {
     float: left;
-    margin-right: 0.5em;
 }
-
-dl.footnote > dd,
-dl.citation > dd {
+aside.footnote > span:last-of-type,
+div.citation > span:last-of-type {
+  padding-right: 0.5em;
+}
+aside.footnote > p {
+  margin-left: 2em;
+}
+div.citation > p {
+  margin-left: 4em;
+}
+aside.footnote > p:last-of-type,
+div.citation > p:last-of-type {
     margin-bottom: 0em;
 }
-
-dl.footnote > dd:after,
-dl.citation > dd:after {
+aside.footnote > p:last-of-type:after,
+div.citation > p:last-of-type:after {
     content: "";
     clear: both;
 }
@@ -582,10 +645,6 @@ dl.field-list > dt {
     padding-right: 5px;
 }
 
-dl.field-list > dt:after {
-    content: ":";
-}
-
 dl.field-list > dd {
     padding-left: 0.5em;
     margin-top: 0em;
@@ -629,14 +688,6 @@ dl.glossary dt {
     font-size: 1.1em;
 }
 
-.optional {
-    font-size: 1.3em;
-}
-
-.sig-paren {
-    font-size: larger;
-}
-
 .versionmodified {
     font-style: italic;
 }
@@ -677,8 +728,9 @@ dl.glossary dt {
 
 .classifier:before {
     font-style: normal;
-    margin: 0.5em;
+    margin: 0 0.5em;
     content: ":";
+    display: inline-block;
 }
 
 abbr, acronym {
@@ -702,6 +754,7 @@ span.pre {
     -ms-hyphens: none;
     -webkit-hyphens: none;
     hyphens: none;
+    white-space: nowrap;
 }
 
 div[class*="highlight-"] {
@@ -765,8 +818,12 @@ div.code-block-caption code {
 
 table.highlighttable td.linenos,
 span.linenos,
-div.doctest > div.highlight span.gp {  /* gp: Generic.Prompt */
-    user-select: none;
+div.highlight span.gp {  /* gp: Generic.Prompt */
+  user-select: none;
+  -webkit-user-select: text; /* Safari fallback only */
+  -webkit-user-select: none; /* Chrome/Safari */
+  -moz-user-select: none; /* Firefox */
+  -ms-user-select: none; /* IE10+ */
 }
 
 div.code-block-caption span.caption-number {
@@ -781,16 +838,6 @@ div.literal-block-wrapper {
     margin: 1em 0;
 }
 
-code.descname {
-    background-color: transparent;
-    font-weight: bold;
-    font-size: 1.2em;
-}
-
-code.descclassname {
-    background-color: transparent;
-}
-
 code.xref, a code {
     background-color: transparent;
     font-weight: bold;
diff --git a/_static/doctools.js b/_static/doctools.js
index 7d88f807d..d06a71d75 100644
--- a/_static/doctools.js
+++ b/_static/doctools.js
@@ -2,315 +2,155 @@
  * doctools.js
  * ~~~~~~~~~~~
  *
- * Sphinx JavaScript utilities for all documentation.
+ * Base JavaScript utilities for all Sphinx HTML documentation.
  *
- * :copyright: Copyright 2007-2020 by the Sphinx team, see AUTHORS.
+ * :copyright: Copyright 2007-2023 by the Sphinx team, see AUTHORS.
  * :license: BSD, see LICENSE for details.
  *
  */
-
-/**
- * select a different prefix for underscore
- */
-$u = _.noConflict();
-
-/**
- * make the code below compatible with browsers without
- * an installed firebug like debugger
-if (!window.console || !console.firebug) {
-  var names = ["log", "debug", "info", "warn", "error", "assert", "dir",
-    "dirxml", "group", "groupEnd", "time", "timeEnd", "count", "trace",
-    "profile", "profileEnd"];
-  window.console = {};
-  for (var i = 0; i < names.length; ++i)
-    window.console[names[i]] = function() {};
-}
- */
-
-/**
- * small helper function to urldecode strings
- */
-jQuery.urldecode = function(x) {
-  return decodeURIComponent(x).replace(/\+/g, ' ');
-};
-
-/**
- * small helper function to urlencode strings
- */
-jQuery.urlencode = encodeURIComponent;
-
-/**
- * This function returns the parsed url parameters of the
- * current request. Multiple values per key are supported,
- * it will always return arrays of strings for the value parts.
- */
-jQuery.getQueryParameters = function(s) {
-  if (typeof s === 'undefined')
-    s = document.location.search;
-  var parts = s.substr(s.indexOf('?') + 1).split('&');
-  var result = {};
-  for (var i = 0; i < parts.length; i++) {
-    var tmp = parts[i].split('=', 2);
-    var key = jQuery.urldecode(tmp[0]);
-    var value = jQuery.urldecode(tmp[1]);
-    if (key in result)
-      result[key].push(value);
-    else
-      result[key] = [value];
+"use strict";
+
+const BLACKLISTED_KEY_CONTROL_ELEMENTS = new Set([
+  "TEXTAREA",
+  "INPUT",
+  "SELECT",
+  "BUTTON",
+]);
+
+const _ready = (callback) => {
+  if (document.readyState !== "loading") {
+    callback();
+  } else {
+    document.addEventListener("DOMContentLoaded", callback);
   }
-  return result;
 };
 
-/**
- * highlight a given string on a jquery object by wrapping it in
- * span elements with the given class name.
- */
-jQuery.fn.highlightText = function(text, className) {
-  function highlight(node, addItems) {
-    if (node.nodeType === 3) {
-      var val = node.nodeValue;
-      var pos = val.toLowerCase().indexOf(text);
-      if (pos >= 0 &&
-          !jQuery(node.parentNode).hasClass(className) &&
-          !jQuery(node.parentNode).hasClass("nohighlight")) {
-        var span;
-        var isInSVG = jQuery(node).closest("body, svg, foreignObject").is("svg");
-        if (isInSVG) {
-          span = document.createElementNS("http://www.w3.org/2000/svg", "tspan");
-        } else {
-          span = document.createElement("span");
-          span.className = className;
-        }
-        span.appendChild(document.createTextNode(val.substr(pos, text.length)));
-        node.parentNode.insertBefore(span, node.parentNode.insertBefore(
-          document.createTextNode(val.substr(pos + text.length)),
-          node.nextSibling));
-        node.nodeValue = val.substr(0, pos);
-        if (isInSVG) {
-          var rect = document.createElementNS("http://www.w3.org/2000/svg", "rect");
-          var bbox = node.parentElement.getBBox();
-          rect.x.baseVal.value = bbox.x;
-          rect.y.baseVal.value = bbox.y;
-          rect.width.baseVal.value = bbox.width;
-          rect.height.baseVal.value = bbox.height;
-          rect.setAttribute('class', className);
-          addItems.push({
-              "parent": node.parentNode,
-              "target": rect});
-        }
-      }
-    }
-    else if (!jQuery(node).is("button, select, textarea")) {
-      jQuery.each(node.childNodes, function() {
-        highlight(this, addItems);
-      });
-    }
-  }
-  var addItems = [];
-  var result = this.each(function() {
-    highlight(this, addItems);
-  });
-  for (var i = 0; i < addItems.length; ++i) {
-    jQuery(addItems[i].parent).before(addItems[i].target);
-  }
-  return result;
-};
-
-/*
- * backward compatibility for jQuery.browser
- * This will be supported until firefox bug is fixed.
- */
-if (!jQuery.browser) {
-  jQuery.uaMatch = function(ua) {
-    ua = ua.toLowerCase();
-
-    var match = /(chrome)[ \/]([\w.]+)/.exec(ua) ||
-      /(webkit)[ \/]([\w.]+)/.exec(ua) ||
-      /(opera)(?:.*version|)[ \/]([\w.]+)/.exec(ua) ||
-      /(msie) ([\w.]+)/.exec(ua) ||
-      ua.indexOf("compatible") < 0 && /(mozilla)(?:.*? rv:([\w.]+)|)/.exec(ua) ||
-      [];
-
-    return {
-      browser: match[ 1 ] || "",
-      version: match[ 2 ] || "0"
-    };
-  };
-  jQuery.browser = {};
-  jQuery.browser[jQuery.uaMatch(navigator.userAgent).browser] = true;
-}
-
 /**
  * Small JavaScript module for the documentation.
  */
-var Documentation = {
-
-  init : function() {
-    this.fixFirefoxAnchorBug();
-    this.highlightSearchWords();
-    this.initIndexTable();
-    if (DOCUMENTATION_OPTIONS.NAVIGATION_WITH_KEYS) {
-      this.initOnKeyListeners();
-    }
+const Documentation = {
+  init: () => {
+    Documentation.initDomainIndexTable();
+    Documentation.initOnKeyListeners();
   },
 
   /**
    * i18n support
    */
-  TRANSLATIONS : {},
-  PLURAL_EXPR : function(n) { return n === 1 ? 0 : 1; },
-  LOCALE : 'unknown',
+  TRANSLATIONS: {},
+  PLURAL_EXPR: (n) => (n === 1 ? 0 : 1),
+  LOCALE: "unknown",
 
   // gettext and ngettext don't access this so that the functions
   // can safely bound to a different name (_ = Documentation.gettext)
-  gettext : function(string) {
-    var translated = Documentation.TRANSLATIONS[string];
-    if (typeof translated === 'undefined')
-      return string;
-    return (typeof translated === 'string') ? translated : translated[0];
-  },
-
-  ngettext : function(singular, plural, n) {
-    var translated = Documentation.TRANSLATIONS[singular];
-    if (typeof translated === 'undefined')
-      return (n == 1) ? singular : plural;
-    return translated[Documentation.PLURALEXPR(n)];
+  gettext: (string) => {
+    const translated = Documentation.TRANSLATIONS[string];
+    switch (typeof translated) {
+      case "undefined":
+        return string; // no translation
+      case "string":
+        return translated; // translation exists
+      default:
+        return translated[0]; // (singular, plural) translation tuple exists
+    }
   },
 
-  addTranslations : function(catalog) {
-    for (var key in catalog.messages)
-      this.TRANSLATIONS[key] = catalog.messages[key];
-    this.PLURAL_EXPR = new Function('n', 'return +(' + catalog.plural_expr + ')');
-    this.LOCALE = catalog.locale;
+  ngettext: (singular, plural, n) => {
+    const translated = Documentation.TRANSLATIONS[singular];
+    if (typeof translated !== "undefined")
+      return translated[Documentation.PLURAL_EXPR(n)];
+    return n === 1 ? singular : plural;
   },
 
-  /**
-   * add context elements like header anchor links
-   */
-  addContextElements : function() {
-    $('div[id] > :header:first').each(function() {
-      $('<a class="headerlink">\u00B6</a>').
-      attr('href', '#' + this.id).
-      attr('title', _('Permalink to this headline')).
-      appendTo(this);
-    });
-    $('dt[id]').each(function() {
-      $('<a class="headerlink">\u00B6</a>').
-      attr('href', '#' + this.id).
-      attr('title', _('Permalink to this definition')).
-      appendTo(this);
-    });
+  addTranslations: (catalog) => {
+    Object.assign(Documentation.TRANSLATIONS, catalog.messages);
+    Documentation.PLURAL_EXPR = new Function(
+      "n",
+      `return (${catalog.plural_expr})`
+    );
+    Documentation.LOCALE = catalog.locale;
   },
 
   /**
-   * workaround a firefox stupidity
-   * see: https://bugzilla.mozilla.org/show_bug.cgi?id=645075
+   * helper function to focus on search bar
    */
-  fixFirefoxAnchorBug : function() {
-    if (document.location.hash && $.browser.mozilla)
-      window.setTimeout(function() {
-        document.location.href += '';
-      }, 10);
+  focusSearchBar: () => {
+    document.querySelectorAll("input[name=q]")[0]?.focus();
   },
 
   /**
-   * highlight the search words provided in the url in the text
+   * Initialise the domain index toggle buttons
    */
-  highlightSearchWords : function() {
-    var params = $.getQueryParameters();
-    var terms = (params.highlight) ? params.highlight[0].split(/\s+/) : [];
-    if (terms.length) {
-      var body = $('div.body');
-      if (!body.length) {
-        body = $('body');
+  initDomainIndexTable: () => {
+    const toggler = (el) => {
+      const idNumber = el.id.substr(7);
+      const toggledRows = document.querySelectorAll(`tr.cg-${idNumber}`);
+      if (el.src.substr(-9) === "minus.png") {
+        el.src = `${el.src.substr(0, el.src.length - 9)}plus.png`;
+        toggledRows.forEach((el) => (el.style.display = "none"));
+      } else {
+        el.src = `${el.src.substr(0, el.src.length - 8)}minus.png`;
+        toggledRows.forEach((el) => (el.style.display = ""));
       }
-      window.setTimeout(function() {
-        $.each(terms, function() {
-          body.highlightText(this.toLowerCase(), 'highlighted');
-        });
-      }, 10);
-      $('<p class="highlight-link"><a href="javascript:Documentation.' +
-        'hideSearchWords()">' + _('Hide Search Matches') + '</a></p>')
-          .appendTo($('#searchbox'));
-    }
-  },
-
-  /**
-   * init the domain index toggle buttons
-   */
-  initIndexTable : function() {
-    var togglers = $('img.toggler').click(function() {
-      var src = $(this).attr('src');
-      var idnum = $(this).attr('id').substr(7);
-      $('tr.cg-' + idnum).toggle();
-      if (src.substr(-9) === 'minus.png')
-        $(this).attr('src', src.substr(0, src.length-9) + 'plus.png');
-      else
-        $(this).attr('src', src.substr(0, src.length-8) + 'minus.png');
-    }).css('display', '');
-    if (DOCUMENTATION_OPTIONS.COLLAPSE_INDEX) {
-        togglers.click();
-    }
-  },
-
-  /**
-   * helper function to hide the search marks again
-   */
-  hideSearchWords : function() {
-    $('#searchbox .highlight-link').fadeOut(300);
-    $('span.highlighted').removeClass('highlighted');
-  },
-
-  /**
-   * make the url absolute
-   */
-  makeURL : function(relativeURL) {
-    return DOCUMENTATION_OPTIONS.URL_ROOT + '/' + relativeURL;
-  },
+    };
 
-  /**
-   * get the current relative url
-   */
-  getCurrentURL : function() {
-    var path = document.location.pathname;
-    var parts = path.split(/\//);
-    $.each(DOCUMENTATION_OPTIONS.URL_ROOT.split(/\//), function() {
-      if (this === '..')
-        parts.pop();
-    });
-    var url = parts.join('/');
-    return path.substring(url.lastIndexOf('/') + 1, path.length - 1);
+    const togglerElements = document.querySelectorAll("img.toggler");
+    togglerElements.forEach((el) =>
+      el.addEventListener("click", (event) => toggler(event.currentTarget))
+    );
+    togglerElements.forEach((el) => (el.style.display = ""));
+    if (DOCUMENTATION_OPTIONS.COLLAPSE_INDEX) togglerElements.forEach(toggler);
   },
 
-  initOnKeyListeners: function() {
-    $(document).keydown(function(event) {
-      var activeElementType = document.activeElement.tagName;
-      // don't navigate when in search box, textarea, dropdown or button
-      if (activeElementType !== 'TEXTAREA' && activeElementType !== 'INPUT' && activeElementType !== 'SELECT'
-          && activeElementType !== 'BUTTON' && !event.altKey && !event.ctrlKey && !event.metaKey
-          && !event.shiftKey) {
-        switch (event.keyCode) {
-          case 37: // left
-            var prevHref = $('link[rel="prev"]').prop('href');
-            if (prevHref) {
-              window.location.href = prevHref;
-              return false;
+  initOnKeyListeners: () => {
+    // only install a listener if it is really needed
+    if (
+      !DOCUMENTATION_OPTIONS.NAVIGATION_WITH_KEYS &&
+      !DOCUMENTATION_OPTIONS.ENABLE_SEARCH_SHORTCUTS
+    )
+      return;
+
+    document.addEventListener("keydown", (event) => {
+      // bail for input elements
+      if (BLACKLISTED_KEY_CONTROL_ELEMENTS.has(document.activeElement.tagName)) return;
+      // bail with special keys
+      if (event.altKey || event.ctrlKey || event.metaKey) return;
+
+      if (!event.shiftKey) {
+        switch (event.key) {
+          case "ArrowLeft":
+            if (!DOCUMENTATION_OPTIONS.NAVIGATION_WITH_KEYS) break;
+
+            const prevLink = document.querySelector('link[rel="prev"]');
+            if (prevLink && prevLink.href) {
+              window.location.href = prevLink.href;
+              event.preventDefault();
             }
-          case 39: // right
-            var nextHref = $('link[rel="next"]').prop('href');
-            if (nextHref) {
-              window.location.href = nextHref;
-              return false;
+            break;
+          case "ArrowRight":
+            if (!DOCUMENTATION_OPTIONS.NAVIGATION_WITH_KEYS) break;
+
+            const nextLink = document.querySelector('link[rel="next"]');
+            if (nextLink && nextLink.href) {
+              window.location.href = nextLink.href;
+              event.preventDefault();
             }
+            break;
         }
       }
+
+      // some keyboard layouts may need Shift to get /
+      switch (event.key) {
+        case "/":
+          if (!DOCUMENTATION_OPTIONS.ENABLE_SEARCH_SHORTCUTS) break;
+          Documentation.focusSearchBar();
+          event.preventDefault();
+      }
     });
-  }
+  },
 };
 
 // quick alias for translations
-_ = Documentation.gettext;
+const _ = Documentation.gettext;
 
-$(document).ready(function() {
-  Documentation.init();
-});
+_ready(Documentation.init);
diff --git a/_static/documentation_options.js b/_static/documentation_options.js
index 0030cfd35..c99fee7dd 100644
--- a/_static/documentation_options.js
+++ b/_static/documentation_options.js
@@ -1,12 +1,14 @@
 var DOCUMENTATION_OPTIONS = {
     URL_ROOT: document.getElementById("documentation_options").getAttribute('data-url_root'),
     VERSION: '0.1.2',
-    LANGUAGE: 'None',
+    LANGUAGE: 'en',
     COLLAPSE_INDEX: false,
     BUILDER: 'html',
     FILE_SUFFIX: '.html',
     LINK_SUFFIX: '.html',
     HAS_SOURCE: true,
     SOURCELINK_SUFFIX: '.txt',
-    NAVIGATION_WITH_KEYS: false
+    NAVIGATION_WITH_KEYS: false,
+    SHOW_SEARCH_SUMMARY: true,
+    ENABLE_SEARCH_SHORTCUTS: true,
 };
\ No newline at end of file
diff --git a/_static/jquery-3.5.1.js b/_static/jquery-3.5.1.js
deleted file mode 100644
index 50937333b..000000000
--- a/_static/jquery-3.5.1.js
+++ /dev/null
@@ -1,10872 +0,0 @@
-/*!
- * jQuery JavaScript Library v3.5.1
- * https://jquery.com/
- *
- * Includes Sizzle.js
- * https://sizzlejs.com/
- *
- * Copyright JS Foundation and other contributors
- * Released under the MIT license
- * https://jquery.org/license
- *
- * Date: 2020-05-04T22:49Z
- */
-( function( global, factory ) {
-
-	"use strict";
-
-	if ( typeof module === "object" && typeof module.exports === "object" ) {
-
-		// For CommonJS and CommonJS-like environments where a proper `window`
-		// is present, execute the factory and get jQuery.
-		// For environments that do not have a `window` with a `document`
-		// (such as Node.js), expose a factory as module.exports.
-		// This accentuates the need for the creation of a real `window`.
-		// e.g. var jQuery = require("jquery")(window);
-		// See ticket #14549 for more info.
-		module.exports = global.document ?
-			factory( global, true ) :
-			function( w ) {
-				if ( !w.document ) {
-					throw new Error( "jQuery requires a window with a document" );
-				}
-				return factory( w );
-			};
-	} else {
-		factory( global );
-	}
-
-// Pass this if window is not defined yet
-} )( typeof window !== "undefined" ? window : this, function( window, noGlobal ) {
-
-// Edge <= 12 - 13+, Firefox <=18 - 45+, IE 10 - 11, Safari 5.1 - 9+, iOS 6 - 9.1
-// throw exceptions when non-strict code (e.g., ASP.NET 4.5) accesses strict mode
-// arguments.callee.caller (trac-13335). But as of jQuery 3.0 (2016), strict mode should be common
-// enough that all such attempts are guarded in a try block.
-"use strict";
-
-var arr = [];
-
-var getProto = Object.getPrototypeOf;
-
-var slice = arr.slice;
-
-var flat = arr.flat ? function( array ) {
-	return arr.flat.call( array );
-} : function( array ) {
-	return arr.concat.apply( [], array );
-};
-
-
-var push = arr.push;
-
-var indexOf = arr.indexOf;
-
-var class2type = {};
-
-var toString = class2type.toString;
-
-var hasOwn = class2type.hasOwnProperty;
-
-var fnToString = hasOwn.toString;
-
-var ObjectFunctionString = fnToString.call( Object );
-
-var support = {};
-
-var isFunction = function isFunction( obj ) {
-
-      // Support: Chrome <=57, Firefox <=52
-      // In some browsers, typeof returns "function" for HTML <object> elements
-      // (i.e., `typeof document.createElement( "object" ) === "function"`).
-      // We don't want to classify *any* DOM node as a function.
-      return typeof obj === "function" && typeof obj.nodeType !== "number";
-  };
-
-
-var isWindow = function isWindow( obj ) {
-		return obj != null && obj === obj.window;
-	};
-
-
-var document = window.document;
-
-
-
-	var preservedScriptAttributes = {
-		type: true,
-		src: true,
-		nonce: true,
-		noModule: true
-	};
-
-	function DOMEval( code, node, doc ) {
-		doc = doc || document;
-
-		var i, val,
-			script = doc.createElement( "script" );
-
-		script.text = code;
-		if ( node ) {
-			for ( i in preservedScriptAttributes ) {
-
-				// Support: Firefox 64+, Edge 18+
-				// Some browsers don't support the "nonce" property on scripts.
-				// On the other hand, just using `getAttribute` is not enough as
-				// the `nonce` attribute is reset to an empty string whenever it
-				// becomes browsing-context connected.
-				// See https://github.com/whatwg/html/issues/2369
-				// See https://html.spec.whatwg.org/#nonce-attributes
-				// The `node.getAttribute` check was added for the sake of
-				// `jQuery.globalEval` so that it can fake a nonce-containing node
-				// via an object.
-				val = node[ i ] || node.getAttribute && node.getAttribute( i );
-				if ( val ) {
-					script.setAttribute( i, val );
-				}
-			}
-		}
-		doc.head.appendChild( script ).parentNode.removeChild( script );
-	}
-
-
-function toType( obj ) {
-	if ( obj == null ) {
-		return obj + "";
-	}
-
-	// Support: Android <=2.3 only (functionish RegExp)
-	return typeof obj === "object" || typeof obj === "function" ?
-		class2type[ toString.call( obj ) ] || "object" :
-		typeof obj;
-}
-/* global Symbol */
-// Defining this global in .eslintrc.json would create a danger of using the global
-// unguarded in another place, it seems safer to define global only for this module
-
-
-
-var
-	version = "3.5.1",
-
-	// Define a local copy of jQuery
-	jQuery = function( selector, context ) {
-
-		// The jQuery object is actually just the init constructor 'enhanced'
-		// Need init if jQuery is called (just allow error to be thrown if not included)
-		return new jQuery.fn.init( selector, context );
-	};
-
-jQuery.fn = jQuery.prototype = {
-
-	// The current version of jQuery being used
-	jquery: version,
-
-	constructor: jQuery,
-
-	// The default length of a jQuery object is 0
-	length: 0,
-
-	toArray: function() {
-		return slice.call( this );
-	},
-
-	// Get the Nth element in the matched element set OR
-	// Get the whole matched element set as a clean array
-	get: function( num ) {
-
-		// Return all the elements in a clean array
-		if ( num == null ) {
-			return slice.call( this );
-		}
-
-		// Return just the one element from the set
-		return num < 0 ? this[ num + this.length ] : this[ num ];
-	},
-
-	// Take an array of elements and push it onto the stack
-	// (returning the new matched element set)
-	pushStack: function( elems ) {
-
-		// Build a new jQuery matched element set
-		var ret = jQuery.merge( this.constructor(), elems );
-
-		// Add the old object onto the stack (as a reference)
-		ret.prevObject = this;
-
-		// Return the newly-formed element set
-		return ret;
-	},
-
-	// Execute a callback for every element in the matched set.
-	each: function( callback ) {
-		return jQuery.each( this, callback );
-	},
-
-	map: function( callback ) {
-		return this.pushStack( jQuery.map( this, function( elem, i ) {
-			return callback.call( elem, i, elem );
-		} ) );
-	},
-
-	slice: function() {
-		return this.pushStack( slice.apply( this, arguments ) );
-	},
-
-	first: function() {
-		return this.eq( 0 );
-	},
-
-	last: function() {
-		return this.eq( -1 );
-	},
-
-	even: function() {
-		return this.pushStack( jQuery.grep( this, function( _elem, i ) {
-			return ( i + 1 ) % 2;
-		} ) );
-	},
-
-	odd: function() {
-		return this.pushStack( jQuery.grep( this, function( _elem, i ) {
-			return i % 2;
-		} ) );
-	},
-
-	eq: function( i ) {
-		var len = this.length,
-			j = +i + ( i < 0 ? len : 0 );
-		return this.pushStack( j >= 0 && j < len ? [ this[ j ] ] : [] );
-	},
-
-	end: function() {
-		return this.prevObject || this.constructor();
-	},
-
-	// For internal use only.
-	// Behaves like an Array's method, not like a jQuery method.
-	push: push,
-	sort: arr.sort,
-	splice: arr.splice
-};
-
-jQuery.extend = jQuery.fn.extend = function() {
-	var options, name, src, copy, copyIsArray, clone,
-		target = arguments[ 0 ] || {},
-		i = 1,
-		length = arguments.length,
-		deep = false;
-
-	// Handle a deep copy situation
-	if ( typeof target === "boolean" ) {
-		deep = target;
-
-		// Skip the boolean and the target
-		target = arguments[ i ] || {};
-		i++;
-	}
-
-	// Handle case when target is a string or something (possible in deep copy)
-	if ( typeof target !== "object" && !isFunction( target ) ) {
-		target = {};
-	}
-
-	// Extend jQuery itself if only one argument is passed
-	if ( i === length ) {
-		target = this;
-		i--;
-	}
-
-	for ( ; i < length; i++ ) {
-
-		// Only deal with non-null/undefined values
-		if ( ( options = arguments[ i ] ) != null ) {
-
-			// Extend the base object
-			for ( name in options ) {
-				copy = options[ name ];
-
-				// Prevent Object.prototype pollution
-				// Prevent never-ending loop
-				if ( name === "__proto__" || target === copy ) {
-					continue;
-				}
-
-				// Recurse if we're merging plain objects or arrays
-				if ( deep && copy && ( jQuery.isPlainObject( copy ) ||
-					( copyIsArray = Array.isArray( copy ) ) ) ) {
-					src = target[ name ];
-
-					// Ensure proper type for the source value
-					if ( copyIsArray && !Array.isArray( src ) ) {
-						clone = [];
-					} else if ( !copyIsArray && !jQuery.isPlainObject( src ) ) {
-						clone = {};
-					} else {
-						clone = src;
-					}
-					copyIsArray = false;
-
-					// Never move original objects, clone them
-					target[ name ] = jQuery.extend( deep, clone, copy );
-
-				// Don't bring in undefined values
-				} else if ( copy !== undefined ) {
-					target[ name ] = copy;
-				}
-			}
-		}
-	}
-
-	// Return the modified object
-	return target;
-};
-
-jQuery.extend( {
-
-	// Unique for each copy of jQuery on the page
-	expando: "jQuery" + ( version + Math.random() ).replace( /\D/g, "" ),
-
-	// Assume jQuery is ready without the ready module
-	isReady: true,
-
-	error: function( msg ) {
-		throw new Error( msg );
-	},
-
-	noop: function() {},
-
-	isPlainObject: function( obj ) {
-		var proto, Ctor;
-
-		// Detect obvious negatives
-		// Use toString instead of jQuery.type to catch host objects
-		if ( !obj || toString.call( obj ) !== "[object Object]" ) {
-			return false;
-		}
-
-		proto = getProto( obj );
-
-		// Objects with no prototype (e.g., `Object.create( null )`) are plain
-		if ( !proto ) {
-			return true;
-		}
-
-		// Objects with prototype are plain iff they were constructed by a global Object function
-		Ctor = hasOwn.call( proto, "constructor" ) && proto.constructor;
-		return typeof Ctor === "function" && fnToString.call( Ctor ) === ObjectFunctionString;
-	},
-
-	isEmptyObject: function( obj ) {
-		var name;
-
-		for ( name in obj ) {
-			return false;
-		}
-		return true;
-	},
-
-	// Evaluates a script in a provided context; falls back to the global one
-	// if not specified.
-	globalEval: function( code, options, doc ) {
-		DOMEval( code, { nonce: options && options.nonce }, doc );
-	},
-
-	each: function( obj, callback ) {
-		var length, i = 0;
-
-		if ( isArrayLike( obj ) ) {
-			length = obj.length;
-			for ( ; i < length; i++ ) {
-				if ( callback.call( obj[ i ], i, obj[ i ] ) === false ) {
-					break;
-				}
-			}
-		} else {
-			for ( i in obj ) {
-				if ( callback.call( obj[ i ], i, obj[ i ] ) === false ) {
-					break;
-				}
-			}
-		}
-
-		return obj;
-	},
-
-	// results is for internal usage only
-	makeArray: function( arr, results ) {
-		var ret = results || [];
-
-		if ( arr != null ) {
-			if ( isArrayLike( Object( arr ) ) ) {
-				jQuery.merge( ret,
-					typeof arr === "string" ?
-					[ arr ] : arr
-				);
-			} else {
-				push.call( ret, arr );
-			}
-		}
-
-		return ret;
-	},
-
-	inArray: function( elem, arr, i ) {
-		return arr == null ? -1 : indexOf.call( arr, elem, i );
-	},
-
-	// Support: Android <=4.0 only, PhantomJS 1 only
-	// push.apply(_, arraylike) throws on ancient WebKit
-	merge: function( first, second ) {
-		var len = +second.length,
-			j = 0,
-			i = first.length;
-
-		for ( ; j < len; j++ ) {
-			first[ i++ ] = second[ j ];
-		}
-
-		first.length = i;
-
-		return first;
-	},
-
-	grep: function( elems, callback, invert ) {
-		var callbackInverse,
-			matches = [],
-			i = 0,
-			length = elems.length,
-			callbackExpect = !invert;
-
-		// Go through the array, only saving the items
-		// that pass the validator function
-		for ( ; i < length; i++ ) {
-			callbackInverse = !callback( elems[ i ], i );
-			if ( callbackInverse !== callbackExpect ) {
-				matches.push( elems[ i ] );
-			}
-		}
-
-		return matches;
-	},
-
-	// arg is for internal usage only
-	map: function( elems, callback, arg ) {
-		var length, value,
-			i = 0,
-			ret = [];
-
-		// Go through the array, translating each of the items to their new values
-		if ( isArrayLike( elems ) ) {
-			length = elems.length;
-			for ( ; i < length; i++ ) {
-				value = callback( elems[ i ], i, arg );
-
-				if ( value != null ) {
-					ret.push( value );
-				}
-			}
-
-		// Go through every key on the object,
-		} else {
-			for ( i in elems ) {
-				value = callback( elems[ i ], i, arg );
-
-				if ( value != null ) {
-					ret.push( value );
-				}
-			}
-		}
-
-		// Flatten any nested arrays
-		return flat( ret );
-	},
-
-	// A global GUID counter for objects
-	guid: 1,
-
-	// jQuery.support is not used in Core but other projects attach their
-	// properties to it so it needs to exist.
-	support: support
-} );
-
-if ( typeof Symbol === "function" ) {
-	jQuery.fn[ Symbol.iterator ] = arr[ Symbol.iterator ];
-}
-
-// Populate the class2type map
-jQuery.each( "Boolean Number String Function Array Date RegExp Object Error Symbol".split( " " ),
-function( _i, name ) {
-	class2type[ "[object " + name + "]" ] = name.toLowerCase();
-} );
-
-function isArrayLike( obj ) {
-
-	// Support: real iOS 8.2 only (not reproducible in simulator)
-	// `in` check used to prevent JIT error (gh-2145)
-	// hasOwn isn't used here due to false negatives
-	// regarding Nodelist length in IE
-	var length = !!obj && "length" in obj && obj.length,
-		type = toType( obj );
-
-	if ( isFunction( obj ) || isWindow( obj ) ) {
-		return false;
-	}
-
-	return type === "array" || length === 0 ||
-		typeof length === "number" && length > 0 && ( length - 1 ) in obj;
-}
-var Sizzle =
-/*!
- * Sizzle CSS Selector Engine v2.3.5
- * https://sizzlejs.com/
- *
- * Copyright JS Foundation and other contributors
- * Released under the MIT license
- * https://js.foundation/
- *
- * Date: 2020-03-14
- */
-( function( window ) {
-var i,
-	support,
-	Expr,
-	getText,
-	isXML,
-	tokenize,
-	compile,
-	select,
-	outermostContext,
-	sortInput,
-	hasDuplicate,
-
-	// Local document vars
-	setDocument,
-	document,
-	docElem,
-	documentIsHTML,
-	rbuggyQSA,
-	rbuggyMatches,
-	matches,
-	contains,
-
-	// Instance-specific data
-	expando = "sizzle" + 1 * new Date(),
-	preferredDoc = window.document,
-	dirruns = 0,
-	done = 0,
-	classCache = createCache(),
-	tokenCache = createCache(),
-	compilerCache = createCache(),
-	nonnativeSelectorCache = createCache(),
-	sortOrder = function( a, b ) {
-		if ( a === b ) {
-			hasDuplicate = true;
-		}
-		return 0;
-	},
-
-	// Instance methods
-	hasOwn = ( {} ).hasOwnProperty,
-	arr = [],
-	pop = arr.pop,
-	pushNative = arr.push,
-	push = arr.push,
-	slice = arr.slice,
-
-	// Use a stripped-down indexOf as it's faster than native
-	// https://jsperf.com/thor-indexof-vs-for/5
-	indexOf = function( list, elem ) {
-		var i = 0,
-			len = list.length;
-		for ( ; i < len; i++ ) {
-			if ( list[ i ] === elem ) {
-				return i;
-			}
-		}
-		return -1;
-	},
-
-	booleans = "checked|selected|async|autofocus|autoplay|controls|defer|disabled|hidden|" +
-		"ismap|loop|multiple|open|readonly|required|scoped",
-
-	// Regular expressions
-
-	// http://www.w3.org/TR/css3-selectors/#whitespace
-	whitespace = "[\\x20\\t\\r\\n\\f]",
-
-	// https://www.w3.org/TR/css-syntax-3/#ident-token-diagram
-	identifier = "(?:\\\\[\\da-fA-F]{1,6}" + whitespace +
-		"?|\\\\[^\\r\\n\\f]|[\\w-]|[^\0-\\x7f])+",
-
-	// Attribute selectors: http://www.w3.org/TR/selectors/#attribute-selectors
-	attributes = "\\[" + whitespace + "*(" + identifier + ")(?:" + whitespace +
-
-		// Operator (capture 2)
-		"*([*^$|!~]?=)" + whitespace +
-
-		// "Attribute values must be CSS identifiers [capture 5]
-		// or strings [capture 3 or capture 4]"
-		"*(?:'((?:\\\\.|[^\\\\'])*)'|\"((?:\\\\.|[^\\\\\"])*)\"|(" + identifier + "))|)" +
-		whitespace + "*\\]",
-
-	pseudos = ":(" + identifier + ")(?:\\((" +
-
-		// To reduce the number of selectors needing tokenize in the preFilter, prefer arguments:
-		// 1. quoted (capture 3; capture 4 or capture 5)
-		"('((?:\\\\.|[^\\\\'])*)'|\"((?:\\\\.|[^\\\\\"])*)\")|" +
-
-		// 2. simple (capture 6)
-		"((?:\\\\.|[^\\\\()[\\]]|" + attributes + ")*)|" +
-
-		// 3. anything else (capture 2)
-		".*" +
-		")\\)|)",
-
-	// Leading and non-escaped trailing whitespace, capturing some non-whitespace characters preceding the latter
-	rwhitespace = new RegExp( whitespace + "+", "g" ),
-	rtrim = new RegExp( "^" + whitespace + "+|((?:^|[^\\\\])(?:\\\\.)*)" +
-		whitespace + "+$", "g" ),
-
-	rcomma = new RegExp( "^" + whitespace + "*," + whitespace + "*" ),
-	rcombinators = new RegExp( "^" + whitespace + "*([>+~]|" + whitespace + ")" + whitespace +
-		"*" ),
-	rdescend = new RegExp( whitespace + "|>" ),
-
-	rpseudo = new RegExp( pseudos ),
-	ridentifier = new RegExp( "^" + identifier + "$" ),
-
-	matchExpr = {
-		"ID": new RegExp( "^#(" + identifier + ")" ),
-		"CLASS": new RegExp( "^\\.(" + identifier + ")" ),
-		"TAG": new RegExp( "^(" + identifier + "|[*])" ),
-		"ATTR": new RegExp( "^" + attributes ),
-		"PSEUDO": new RegExp( "^" + pseudos ),
-		"CHILD": new RegExp( "^:(only|first|last|nth|nth-last)-(child|of-type)(?:\\(" +
-			whitespace + "*(even|odd|(([+-]|)(\\d*)n|)" + whitespace + "*(?:([+-]|)" +
-			whitespace + "*(\\d+)|))" + whitespace + "*\\)|)", "i" ),
-		"bool": new RegExp( "^(?:" + booleans + ")$", "i" ),
-
-		// For use in libraries implementing .is()
-		// We use this for POS matching in `select`
-		"needsContext": new RegExp( "^" + whitespace +
-			"*[>+~]|:(even|odd|eq|gt|lt|nth|first|last)(?:\\(" + whitespace +
-			"*((?:-\\d)?\\d*)" + whitespace + "*\\)|)(?=[^-]|$)", "i" )
-	},
-
-	rhtml = /HTML$/i,
-	rinputs = /^(?:input|select|textarea|button)$/i,
-	rheader = /^h\d$/i,
-
-	rnative = /^[^{]+\{\s*\[native \w/,
-
-	// Easily-parseable/retrievable ID or TAG or CLASS selectors
-	rquickExpr = /^(?:#([\w-]+)|(\w+)|\.([\w-]+))$/,
-
-	rsibling = /[+~]/,
-
-	// CSS escapes
-	// http://www.w3.org/TR/CSS21/syndata.html#escaped-characters
-	runescape = new RegExp( "\\\\[\\da-fA-F]{1,6}" + whitespace + "?|\\\\([^\\r\\n\\f])", "g" ),
-	funescape = function( escape, nonHex ) {
-		var high = "0x" + escape.slice( 1 ) - 0x10000;
-
-		return nonHex ?
-
-			// Strip the backslash prefix from a non-hex escape sequence
-			nonHex :
-
-			// Replace a hexadecimal escape sequence with the encoded Unicode code point
-			// Support: IE <=11+
-			// For values outside the Basic Multilingual Plane (BMP), manually construct a
-			// surrogate pair
-			high < 0 ?
-				String.fromCharCode( high + 0x10000 ) :
-				String.fromCharCode( high >> 10 | 0xD800, high & 0x3FF | 0xDC00 );
-	},
-
-	// CSS string/identifier serialization
-	// https://drafts.csswg.org/cssom/#common-serializing-idioms
-	rcssescape = /([\0-\x1f\x7f]|^-?\d)|^-$|[^\0-\x1f\x7f-\uFFFF\w-]/g,
-	fcssescape = function( ch, asCodePoint ) {
-		if ( asCodePoint ) {
-
-			// U+0000 NULL becomes U+FFFD REPLACEMENT CHARACTER
-			if ( ch === "\0" ) {
-				return "\uFFFD";
-			}
-
-			// Control characters and (dependent upon position) numbers get escaped as code points
-			return ch.slice( 0, -1 ) + "\\" +
-				ch.charCodeAt( ch.length - 1 ).toString( 16 ) + " ";
-		}
-
-		// Other potentially-special ASCII characters get backslash-escaped
-		return "\\" + ch;
-	},
-
-	// Used for iframes
-	// See setDocument()
-	// Removing the function wrapper causes a "Permission Denied"
-	// error in IE
-	unloadHandler = function() {
-		setDocument();
-	},
-
-	inDisabledFieldset = addCombinator(
-		function( elem ) {
-			return elem.disabled === true && elem.nodeName.toLowerCase() === "fieldset";
-		},
-		{ dir: "parentNode", next: "legend" }
-	);
-
-// Optimize for push.apply( _, NodeList )
-try {
-	push.apply(
-		( arr = slice.call( preferredDoc.childNodes ) ),
-		preferredDoc.childNodes
-	);
-
-	// Support: Android<4.0
-	// Detect silently failing push.apply
-	// eslint-disable-next-line no-unused-expressions
-	arr[ preferredDoc.childNodes.length ].nodeType;
-} catch ( e ) {
-	push = { apply: arr.length ?
-
-		// Leverage slice if possible
-		function( target, els ) {
-			pushNative.apply( target, slice.call( els ) );
-		} :
-
-		// Support: IE<9
-		// Otherwise append directly
-		function( target, els ) {
-			var j = target.length,
-				i = 0;
-
-			// Can't trust NodeList.length
-			while ( ( target[ j++ ] = els[ i++ ] ) ) {}
-			target.length = j - 1;
-		}
-	};
-}
-
-function Sizzle( selector, context, results, seed ) {
-	var m, i, elem, nid, match, groups, newSelector,
-		newContext = context && context.ownerDocument,
-
-		// nodeType defaults to 9, since context defaults to document
-		nodeType = context ? context.nodeType : 9;
-
-	results = results || [];
-
-	// Return early from calls with invalid selector or context
-	if ( typeof selector !== "string" || !selector ||
-		nodeType !== 1 && nodeType !== 9 && nodeType !== 11 ) {
-
-		return results;
-	}
-
-	// Try to shortcut find operations (as opposed to filters) in HTML documents
-	if ( !seed ) {
-		setDocument( context );
-		context = context || document;
-
-		if ( documentIsHTML ) {
-
-			// If the selector is sufficiently simple, try using a "get*By*" DOM method
-			// (excepting DocumentFragment context, where the methods don't exist)
-			if ( nodeType !== 11 && ( match = rquickExpr.exec( selector ) ) ) {
-
-				// ID selector
-				if ( ( m = match[ 1 ] ) ) {
-
-					// Document context
-					if ( nodeType === 9 ) {
-						if ( ( elem = context.getElementById( m ) ) ) {
-
-							// Support: IE, Opera, Webkit
-							// TODO: identify versions
-							// getElementById can match elements by name instead of ID
-							if ( elem.id === m ) {
-								results.push( elem );
-								return results;
-							}
-						} else {
-							return results;
-						}
-
-					// Element context
-					} else {
-
-						// Support: IE, Opera, Webkit
-						// TODO: identify versions
-						// getElementById can match elements by name instead of ID
-						if ( newContext && ( elem = newContext.getElementById( m ) ) &&
-							contains( context, elem ) &&
-							elem.id === m ) {
-
-							results.push( elem );
-							return results;
-						}
-					}
-
-				// Type selector
-				} else if ( match[ 2 ] ) {
-					push.apply( results, context.getElementsByTagName( selector ) );
-					return results;
-
-				// Class selector
-				} else if ( ( m = match[ 3 ] ) && support.getElementsByClassName &&
-					context.getElementsByClassName ) {
-
-					push.apply( results, context.getElementsByClassName( m ) );
-					return results;
-				}
-			}
-
-			// Take advantage of querySelectorAll
-			if ( support.qsa &&
-				!nonnativeSelectorCache[ selector + " " ] &&
-				( !rbuggyQSA || !rbuggyQSA.test( selector ) ) &&
-
-				// Support: IE 8 only
-				// Exclude object elements
-				( nodeType !== 1 || context.nodeName.toLowerCase() !== "object" ) ) {
-
-				newSelector = selector;
-				newContext = context;
-
-				// qSA considers elements outside a scoping root when evaluating child or
-				// descendant combinators, which is not what we want.
-				// In such cases, we work around the behavior by prefixing every selector in the
-				// list with an ID selector referencing the scope context.
-				// The technique has to be used as well when a leading combinator is used
-				// as such selectors are not recognized by querySelectorAll.
-				// Thanks to Andrew Dupont for this technique.
-				if ( nodeType === 1 &&
-					( rdescend.test( selector ) || rcombinators.test( selector ) ) ) {
-
-					// Expand context for sibling selectors
-					newContext = rsibling.test( selector ) && testContext( context.parentNode ) ||
-						context;
-
-					// We can use :scope instead of the ID hack if the browser
-					// supports it & if we're not changing the context.
-					if ( newContext !== context || !support.scope ) {
-
-						// Capture the context ID, setting it first if necessary
-						if ( ( nid = context.getAttribute( "id" ) ) ) {
-							nid = nid.replace( rcssescape, fcssescape );
-						} else {
-							context.setAttribute( "id", ( nid = expando ) );
-						}
-					}
-
-					// Prefix every selector in the list
-					groups = tokenize( selector );
-					i = groups.length;
-					while ( i-- ) {
-						groups[ i ] = ( nid ? "#" + nid : ":scope" ) + " " +
-							toSelector( groups[ i ] );
-					}
-					newSelector = groups.join( "," );
-				}
-
-				try {
-					push.apply( results,
-						newContext.querySelectorAll( newSelector )
-					);
-					return results;
-				} catch ( qsaError ) {
-					nonnativeSelectorCache( selector, true );
-				} finally {
-					if ( nid === expando ) {
-						context.removeAttribute( "id" );
-					}
-				}
-			}
-		}
-	}
-
-	// All others
-	return select( selector.replace( rtrim, "$1" ), context, results, seed );
-}
-
-/**
- * Create key-value caches of limited size
- * @returns {function(string, object)} Returns the Object data after storing it on itself with
- *	property name the (space-suffixed) string and (if the cache is larger than Expr.cacheLength)
- *	deleting the oldest entry
- */
-function createCache() {
-	var keys = [];
-
-	function cache( key, value ) {
-
-		// Use (key + " ") to avoid collision with native prototype properties (see Issue #157)
-		if ( keys.push( key + " " ) > Expr.cacheLength ) {
-
-			// Only keep the most recent entries
-			delete cache[ keys.shift() ];
-		}
-		return ( cache[ key + " " ] = value );
-	}
-	return cache;
-}
-
-/**
- * Mark a function for special use by Sizzle
- * @param {Function} fn The function to mark
- */
-function markFunction( fn ) {
-	fn[ expando ] = true;
-	return fn;
-}
-
-/**
- * Support testing using an element
- * @param {Function} fn Passed the created element and returns a boolean result
- */
-function assert( fn ) {
-	var el = document.createElement( "fieldset" );
-
-	try {
-		return !!fn( el );
-	} catch ( e ) {
-		return false;
-	} finally {
-
-		// Remove from its parent by default
-		if ( el.parentNode ) {
-			el.parentNode.removeChild( el );
-		}
-
-		// release memory in IE
-		el = null;
-	}
-}
-
-/**
- * Adds the same handler for all of the specified attrs
- * @param {String} attrs Pipe-separated list of attributes
- * @param {Function} handler The method that will be applied
- */
-function addHandle( attrs, handler ) {
-	var arr = attrs.split( "|" ),
-		i = arr.length;
-
-	while ( i-- ) {
-		Expr.attrHandle[ arr[ i ] ] = handler;
-	}
-}
-
-/**
- * Checks document order of two siblings
- * @param {Element} a
- * @param {Element} b
- * @returns {Number} Returns less than 0 if a precedes b, greater than 0 if a follows b
- */
-function siblingCheck( a, b ) {
-	var cur = b && a,
-		diff = cur && a.nodeType === 1 && b.nodeType === 1 &&
-			a.sourceIndex - b.sourceIndex;
-
-	// Use IE sourceIndex if available on both nodes
-	if ( diff ) {
-		return diff;
-	}
-
-	// Check if b follows a
-	if ( cur ) {
-		while ( ( cur = cur.nextSibling ) ) {
-			if ( cur === b ) {
-				return -1;
-			}
-		}
-	}
-
-	return a ? 1 : -1;
-}
-
-/**
- * Returns a function to use in pseudos for input types
- * @param {String} type
- */
-function createInputPseudo( type ) {
-	return function( elem ) {
-		var name = elem.nodeName.toLowerCase();
-		return name === "input" && elem.type === type;
-	};
-}
-
-/**
- * Returns a function to use in pseudos for buttons
- * @param {String} type
- */
-function createButtonPseudo( type ) {
-	return function( elem ) {
-		var name = elem.nodeName.toLowerCase();
-		return ( name === "input" || name === "button" ) && elem.type === type;
-	};
-}
-
-/**
- * Returns a function to use in pseudos for :enabled/:disabled
- * @param {Boolean} disabled true for :disabled; false for :enabled
- */
-function createDisabledPseudo( disabled ) {
-
-	// Known :disabled false positives: fieldset[disabled] > legend:nth-of-type(n+2) :can-disable
-	return function( elem ) {
-
-		// Only certain elements can match :enabled or :disabled
-		// https://html.spec.whatwg.org/multipage/scripting.html#selector-enabled
-		// https://html.spec.whatwg.org/multipage/scripting.html#selector-disabled
-		if ( "form" in elem ) {
-
-			// Check for inherited disabledness on relevant non-disabled elements:
-			// * listed form-associated elements in a disabled fieldset
-			//   https://html.spec.whatwg.org/multipage/forms.html#category-listed
-			//   https://html.spec.whatwg.org/multipage/forms.html#concept-fe-disabled
-			// * option elements in a disabled optgroup
-			//   https://html.spec.whatwg.org/multipage/forms.html#concept-option-disabled
-			// All such elements have a "form" property.
-			if ( elem.parentNode && elem.disabled === false ) {
-
-				// Option elements defer to a parent optgroup if present
-				if ( "label" in elem ) {
-					if ( "label" in elem.parentNode ) {
-						return elem.parentNode.disabled === disabled;
-					} else {
-						return elem.disabled === disabled;
-					}
-				}
-
-				// Support: IE 6 - 11
-				// Use the isDisabled shortcut property to check for disabled fieldset ancestors
-				return elem.isDisabled === disabled ||
-
-					// Where there is no isDisabled, check manually
-					/* jshint -W018 */
-					elem.isDisabled !== !disabled &&
-					inDisabledFieldset( elem ) === disabled;
-			}
-
-			return elem.disabled === disabled;
-
-		// Try to winnow out elements that can't be disabled before trusting the disabled property.
-		// Some victims get caught in our net (label, legend, menu, track), but it shouldn't
-		// even exist on them, let alone have a boolean value.
-		} else if ( "label" in elem ) {
-			return elem.disabled === disabled;
-		}
-
-		// Remaining elements are neither :enabled nor :disabled
-		return false;
-	};
-}
-
-/**
- * Returns a function to use in pseudos for positionals
- * @param {Function} fn
- */
-function createPositionalPseudo( fn ) {
-	return markFunction( function( argument ) {
-		argument = +argument;
-		return markFunction( function( seed, matches ) {
-			var j,
-				matchIndexes = fn( [], seed.length, argument ),
-				i = matchIndexes.length;
-
-			// Match elements found at the specified indexes
-			while ( i-- ) {
-				if ( seed[ ( j = matchIndexes[ i ] ) ] ) {
-					seed[ j ] = !( matches[ j ] = seed[ j ] );
-				}
-			}
-		} );
-	} );
-}
-
-/**
- * Checks a node for validity as a Sizzle context
- * @param {Element|Object=} context
- * @returns {Element|Object|Boolean} The input node if acceptable, otherwise a falsy value
- */
-function testContext( context ) {
-	return context && typeof context.getElementsByTagName !== "undefined" && context;
-}
-
-// Expose support vars for convenience
-support = Sizzle.support = {};
-
-/**
- * Detects XML nodes
- * @param {Element|Object} elem An element or a document
- * @returns {Boolean} True iff elem is a non-HTML XML node
- */
-isXML = Sizzle.isXML = function( elem ) {
-	var namespace = elem.namespaceURI,
-		docElem = ( elem.ownerDocument || elem ).documentElement;
-
-	// Support: IE <=8
-	// Assume HTML when documentElement doesn't yet exist, such as inside loading iframes
-	// https://bugs.jquery.com/ticket/4833
-	return !rhtml.test( namespace || docElem && docElem.nodeName || "HTML" );
-};
-
-/**
- * Sets document-related variables once based on the current document
- * @param {Element|Object} [doc] An element or document object to use to set the document
- * @returns {Object} Returns the current document
- */
-setDocument = Sizzle.setDocument = function( node ) {
-	var hasCompare, subWindow,
-		doc = node ? node.ownerDocument || node : preferredDoc;
-
-	// Return early if doc is invalid or already selected
-	// Support: IE 11+, Edge 17 - 18+
-	// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-	// two documents; shallow comparisons work.
-	// eslint-disable-next-line eqeqeq
-	if ( doc == document || doc.nodeType !== 9 || !doc.documentElement ) {
-		return document;
-	}
-
-	// Update global variables
-	document = doc;
-	docElem = document.documentElement;
-	documentIsHTML = !isXML( document );
-
-	// Support: IE 9 - 11+, Edge 12 - 18+
-	// Accessing iframe documents after unload throws "permission denied" errors (jQuery #13936)
-	// Support: IE 11+, Edge 17 - 18+
-	// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-	// two documents; shallow comparisons work.
-	// eslint-disable-next-line eqeqeq
-	if ( preferredDoc != document &&
-		( subWindow = document.defaultView ) && subWindow.top !== subWindow ) {
-
-		// Support: IE 11, Edge
-		if ( subWindow.addEventListener ) {
-			subWindow.addEventListener( "unload", unloadHandler, false );
-
-		// Support: IE 9 - 10 only
-		} else if ( subWindow.attachEvent ) {
-			subWindow.attachEvent( "onunload", unloadHandler );
-		}
-	}
-
-	// Support: IE 8 - 11+, Edge 12 - 18+, Chrome <=16 - 25 only, Firefox <=3.6 - 31 only,
-	// Safari 4 - 5 only, Opera <=11.6 - 12.x only
-	// IE/Edge & older browsers don't support the :scope pseudo-class.
-	// Support: Safari 6.0 only
-	// Safari 6.0 supports :scope but it's an alias of :root there.
-	support.scope = assert( function( el ) {
-		docElem.appendChild( el ).appendChild( document.createElement( "div" ) );
-		return typeof el.querySelectorAll !== "undefined" &&
-			!el.querySelectorAll( ":scope fieldset div" ).length;
-	} );
-
-	/* Attributes
-	---------------------------------------------------------------------- */
-
-	// Support: IE<8
-	// Verify that getAttribute really returns attributes and not properties
-	// (excepting IE8 booleans)
-	support.attributes = assert( function( el ) {
-		el.className = "i";
-		return !el.getAttribute( "className" );
-	} );
-
-	/* getElement(s)By*
-	---------------------------------------------------------------------- */
-
-	// Check if getElementsByTagName("*") returns only elements
-	support.getElementsByTagName = assert( function( el ) {
-		el.appendChild( document.createComment( "" ) );
-		return !el.getElementsByTagName( "*" ).length;
-	} );
-
-	// Support: IE<9
-	support.getElementsByClassName = rnative.test( document.getElementsByClassName );
-
-	// Support: IE<10
-	// Check if getElementById returns elements by name
-	// The broken getElementById methods don't pick up programmatically-set names,
-	// so use a roundabout getElementsByName test
-	support.getById = assert( function( el ) {
-		docElem.appendChild( el ).id = expando;
-		return !document.getElementsByName || !document.getElementsByName( expando ).length;
-	} );
-
-	// ID filter and find
-	if ( support.getById ) {
-		Expr.filter[ "ID" ] = function( id ) {
-			var attrId = id.replace( runescape, funescape );
-			return function( elem ) {
-				return elem.getAttribute( "id" ) === attrId;
-			};
-		};
-		Expr.find[ "ID" ] = function( id, context ) {
-			if ( typeof context.getElementById !== "undefined" && documentIsHTML ) {
-				var elem = context.getElementById( id );
-				return elem ? [ elem ] : [];
-			}
-		};
-	} else {
-		Expr.filter[ "ID" ] =  function( id ) {
-			var attrId = id.replace( runescape, funescape );
-			return function( elem ) {
-				var node = typeof elem.getAttributeNode !== "undefined" &&
-					elem.getAttributeNode( "id" );
-				return node && node.value === attrId;
-			};
-		};
-
-		// Support: IE 6 - 7 only
-		// getElementById is not reliable as a find shortcut
-		Expr.find[ "ID" ] = function( id, context ) {
-			if ( typeof context.getElementById !== "undefined" && documentIsHTML ) {
-				var node, i, elems,
-					elem = context.getElementById( id );
-
-				if ( elem ) {
-
-					// Verify the id attribute
-					node = elem.getAttributeNode( "id" );
-					if ( node && node.value === id ) {
-						return [ elem ];
-					}
-
-					// Fall back on getElementsByName
-					elems = context.getElementsByName( id );
-					i = 0;
-					while ( ( elem = elems[ i++ ] ) ) {
-						node = elem.getAttributeNode( "id" );
-						if ( node && node.value === id ) {
-							return [ elem ];
-						}
-					}
-				}
-
-				return [];
-			}
-		};
-	}
-
-	// Tag
-	Expr.find[ "TAG" ] = support.getElementsByTagName ?
-		function( tag, context ) {
-			if ( typeof context.getElementsByTagName !== "undefined" ) {
-				return context.getElementsByTagName( tag );
-
-			// DocumentFragment nodes don't have gEBTN
-			} else if ( support.qsa ) {
-				return context.querySelectorAll( tag );
-			}
-		} :
-
-		function( tag, context ) {
-			var elem,
-				tmp = [],
-				i = 0,
-
-				// By happy coincidence, a (broken) gEBTN appears on DocumentFragment nodes too
-				results = context.getElementsByTagName( tag );
-
-			// Filter out possible comments
-			if ( tag === "*" ) {
-				while ( ( elem = results[ i++ ] ) ) {
-					if ( elem.nodeType === 1 ) {
-						tmp.push( elem );
-					}
-				}
-
-				return tmp;
-			}
-			return results;
-		};
-
-	// Class
-	Expr.find[ "CLASS" ] = support.getElementsByClassName && function( className, context ) {
-		if ( typeof context.getElementsByClassName !== "undefined" && documentIsHTML ) {
-			return context.getElementsByClassName( className );
-		}
-	};
-
-	/* QSA/matchesSelector
-	---------------------------------------------------------------------- */
-
-	// QSA and matchesSelector support
-
-	// matchesSelector(:active) reports false when true (IE9/Opera 11.5)
-	rbuggyMatches = [];
-
-	// qSa(:focus) reports false when true (Chrome 21)
-	// We allow this because of a bug in IE8/9 that throws an error
-	// whenever `document.activeElement` is accessed on an iframe
-	// So, we allow :focus to pass through QSA all the time to avoid the IE error
-	// See https://bugs.jquery.com/ticket/13378
-	rbuggyQSA = [];
-
-	if ( ( support.qsa = rnative.test( document.querySelectorAll ) ) ) {
-
-		// Build QSA regex
-		// Regex strategy adopted from Diego Perini
-		assert( function( el ) {
-
-			var input;
-
-			// Select is set to empty string on purpose
-			// This is to test IE's treatment of not explicitly
-			// setting a boolean content attribute,
-			// since its presence should be enough
-			// https://bugs.jquery.com/ticket/12359
-			docElem.appendChild( el ).innerHTML = "<a id='" + expando + "'></a>" +
-				"<select id='" + expando + "-\r\\' msallowcapture=''>" +
-				"<option selected=''></option></select>";
-
-			// Support: IE8, Opera 11-12.16
-			// Nothing should be selected when empty strings follow ^= or $= or *=
-			// The test attribute must be unknown in Opera but "safe" for WinRT
-			// https://msdn.microsoft.com/en-us/library/ie/hh465388.aspx#attribute_section
-			if ( el.querySelectorAll( "[msallowcapture^='']" ).length ) {
-				rbuggyQSA.push( "[*^$]=" + whitespace + "*(?:''|\"\")" );
-			}
-
-			// Support: IE8
-			// Boolean attributes and "value" are not treated correctly
-			if ( !el.querySelectorAll( "[selected]" ).length ) {
-				rbuggyQSA.push( "\\[" + whitespace + "*(?:value|" + booleans + ")" );
-			}
-
-			// Support: Chrome<29, Android<4.4, Safari<7.0+, iOS<7.0+, PhantomJS<1.9.8+
-			if ( !el.querySelectorAll( "[id~=" + expando + "-]" ).length ) {
-				rbuggyQSA.push( "~=" );
-			}
-
-			// Support: IE 11+, Edge 15 - 18+
-			// IE 11/Edge don't find elements on a `[name='']` query in some cases.
-			// Adding a temporary attribute to the document before the selection works
-			// around the issue.
-			// Interestingly, IE 10 & older don't seem to have the issue.
-			input = document.createElement( "input" );
-			input.setAttribute( "name", "" );
-			el.appendChild( input );
-			if ( !el.querySelectorAll( "[name='']" ).length ) {
-				rbuggyQSA.push( "\\[" + whitespace + "*name" + whitespace + "*=" +
-					whitespace + "*(?:''|\"\")" );
-			}
-
-			// Webkit/Opera - :checked should return selected option elements
-			// http://www.w3.org/TR/2011/REC-css3-selectors-20110929/#checked
-			// IE8 throws error here and will not see later tests
-			if ( !el.querySelectorAll( ":checked" ).length ) {
-				rbuggyQSA.push( ":checked" );
-			}
-
-			// Support: Safari 8+, iOS 8+
-			// https://bugs.webkit.org/show_bug.cgi?id=136851
-			// In-page `selector#id sibling-combinator selector` fails
-			if ( !el.querySelectorAll( "a#" + expando + "+*" ).length ) {
-				rbuggyQSA.push( ".#.+[+~]" );
-			}
-
-			// Support: Firefox <=3.6 - 5 only
-			// Old Firefox doesn't throw on a badly-escaped identifier.
-			el.querySelectorAll( "\\\f" );
-			rbuggyQSA.push( "[\\r\\n\\f]" );
-		} );
-
-		assert( function( el ) {
-			el.innerHTML = "<a href='' disabled='disabled'></a>" +
-				"<select disabled='disabled'><option/></select>";
-
-			// Support: Windows 8 Native Apps
-			// The type and name attributes are restricted during .innerHTML assignment
-			var input = document.createElement( "input" );
-			input.setAttribute( "type", "hidden" );
-			el.appendChild( input ).setAttribute( "name", "D" );
-
-			// Support: IE8
-			// Enforce case-sensitivity of name attribute
-			if ( el.querySelectorAll( "[name=d]" ).length ) {
-				rbuggyQSA.push( "name" + whitespace + "*[*^$|!~]?=" );
-			}
-
-			// FF 3.5 - :enabled/:disabled and hidden elements (hidden elements are still enabled)
-			// IE8 throws error here and will not see later tests
-			if ( el.querySelectorAll( ":enabled" ).length !== 2 ) {
-				rbuggyQSA.push( ":enabled", ":disabled" );
-			}
-
-			// Support: IE9-11+
-			// IE's :disabled selector does not pick up the children of disabled fieldsets
-			docElem.appendChild( el ).disabled = true;
-			if ( el.querySelectorAll( ":disabled" ).length !== 2 ) {
-				rbuggyQSA.push( ":enabled", ":disabled" );
-			}
-
-			// Support: Opera 10 - 11 only
-			// Opera 10-11 does not throw on post-comma invalid pseudos
-			el.querySelectorAll( "*,:x" );
-			rbuggyQSA.push( ",.*:" );
-		} );
-	}
-
-	if ( ( support.matchesSelector = rnative.test( ( matches = docElem.matches ||
-		docElem.webkitMatchesSelector ||
-		docElem.mozMatchesSelector ||
-		docElem.oMatchesSelector ||
-		docElem.msMatchesSelector ) ) ) ) {
-
-		assert( function( el ) {
-
-			// Check to see if it's possible to do matchesSelector
-			// on a disconnected node (IE 9)
-			support.disconnectedMatch = matches.call( el, "*" );
-
-			// This should fail with an exception
-			// Gecko does not error, returns false instead
-			matches.call( el, "[s!='']:x" );
-			rbuggyMatches.push( "!=", pseudos );
-		} );
-	}
-
-	rbuggyQSA = rbuggyQSA.length && new RegExp( rbuggyQSA.join( "|" ) );
-	rbuggyMatches = rbuggyMatches.length && new RegExp( rbuggyMatches.join( "|" ) );
-
-	/* Contains
-	---------------------------------------------------------------------- */
-	hasCompare = rnative.test( docElem.compareDocumentPosition );
-
-	// Element contains another
-	// Purposefully self-exclusive
-	// As in, an element does not contain itself
-	contains = hasCompare || rnative.test( docElem.contains ) ?
-		function( a, b ) {
-			var adown = a.nodeType === 9 ? a.documentElement : a,
-				bup = b && b.parentNode;
-			return a === bup || !!( bup && bup.nodeType === 1 && (
-				adown.contains ?
-					adown.contains( bup ) :
-					a.compareDocumentPosition && a.compareDocumentPosition( bup ) & 16
-			) );
-		} :
-		function( a, b ) {
-			if ( b ) {
-				while ( ( b = b.parentNode ) ) {
-					if ( b === a ) {
-						return true;
-					}
-				}
-			}
-			return false;
-		};
-
-	/* Sorting
-	---------------------------------------------------------------------- */
-
-	// Document order sorting
-	sortOrder = hasCompare ?
-	function( a, b ) {
-
-		// Flag for duplicate removal
-		if ( a === b ) {
-			hasDuplicate = true;
-			return 0;
-		}
-
-		// Sort on method existence if only one input has compareDocumentPosition
-		var compare = !a.compareDocumentPosition - !b.compareDocumentPosition;
-		if ( compare ) {
-			return compare;
-		}
-
-		// Calculate position if both inputs belong to the same document
-		// Support: IE 11+, Edge 17 - 18+
-		// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-		// two documents; shallow comparisons work.
-		// eslint-disable-next-line eqeqeq
-		compare = ( a.ownerDocument || a ) == ( b.ownerDocument || b ) ?
-			a.compareDocumentPosition( b ) :
-
-			// Otherwise we know they are disconnected
-			1;
-
-		// Disconnected nodes
-		if ( compare & 1 ||
-			( !support.sortDetached && b.compareDocumentPosition( a ) === compare ) ) {
-
-			// Choose the first element that is related to our preferred document
-			// Support: IE 11+, Edge 17 - 18+
-			// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-			// two documents; shallow comparisons work.
-			// eslint-disable-next-line eqeqeq
-			if ( a == document || a.ownerDocument == preferredDoc &&
-				contains( preferredDoc, a ) ) {
-				return -1;
-			}
-
-			// Support: IE 11+, Edge 17 - 18+
-			// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-			// two documents; shallow comparisons work.
-			// eslint-disable-next-line eqeqeq
-			if ( b == document || b.ownerDocument == preferredDoc &&
-				contains( preferredDoc, b ) ) {
-				return 1;
-			}
-
-			// Maintain original order
-			return sortInput ?
-				( indexOf( sortInput, a ) - indexOf( sortInput, b ) ) :
-				0;
-		}
-
-		return compare & 4 ? -1 : 1;
-	} :
-	function( a, b ) {
-
-		// Exit early if the nodes are identical
-		if ( a === b ) {
-			hasDuplicate = true;
-			return 0;
-		}
-
-		var cur,
-			i = 0,
-			aup = a.parentNode,
-			bup = b.parentNode,
-			ap = [ a ],
-			bp = [ b ];
-
-		// Parentless nodes are either documents or disconnected
-		if ( !aup || !bup ) {
-
-			// Support: IE 11+, Edge 17 - 18+
-			// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-			// two documents; shallow comparisons work.
-			/* eslint-disable eqeqeq */
-			return a == document ? -1 :
-				b == document ? 1 :
-				/* eslint-enable eqeqeq */
-				aup ? -1 :
-				bup ? 1 :
-				sortInput ?
-				( indexOf( sortInput, a ) - indexOf( sortInput, b ) ) :
-				0;
-
-		// If the nodes are siblings, we can do a quick check
-		} else if ( aup === bup ) {
-			return siblingCheck( a, b );
-		}
-
-		// Otherwise we need full lists of their ancestors for comparison
-		cur = a;
-		while ( ( cur = cur.parentNode ) ) {
-			ap.unshift( cur );
-		}
-		cur = b;
-		while ( ( cur = cur.parentNode ) ) {
-			bp.unshift( cur );
-		}
-
-		// Walk down the tree looking for a discrepancy
-		while ( ap[ i ] === bp[ i ] ) {
-			i++;
-		}
-
-		return i ?
-
-			// Do a sibling check if the nodes have a common ancestor
-			siblingCheck( ap[ i ], bp[ i ] ) :
-
-			// Otherwise nodes in our document sort first
-			// Support: IE 11+, Edge 17 - 18+
-			// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-			// two documents; shallow comparisons work.
-			/* eslint-disable eqeqeq */
-			ap[ i ] == preferredDoc ? -1 :
-			bp[ i ] == preferredDoc ? 1 :
-			/* eslint-enable eqeqeq */
-			0;
-	};
-
-	return document;
-};
-
-Sizzle.matches = function( expr, elements ) {
-	return Sizzle( expr, null, null, elements );
-};
-
-Sizzle.matchesSelector = function( elem, expr ) {
-	setDocument( elem );
-
-	if ( support.matchesSelector && documentIsHTML &&
-		!nonnativeSelectorCache[ expr + " " ] &&
-		( !rbuggyMatches || !rbuggyMatches.test( expr ) ) &&
-		( !rbuggyQSA     || !rbuggyQSA.test( expr ) ) ) {
-
-		try {
-			var ret = matches.call( elem, expr );
-
-			// IE 9's matchesSelector returns false on disconnected nodes
-			if ( ret || support.disconnectedMatch ||
-
-				// As well, disconnected nodes are said to be in a document
-				// fragment in IE 9
-				elem.document && elem.document.nodeType !== 11 ) {
-				return ret;
-			}
-		} catch ( e ) {
-			nonnativeSelectorCache( expr, true );
-		}
-	}
-
-	return Sizzle( expr, document, null, [ elem ] ).length > 0;
-};
-
-Sizzle.contains = function( context, elem ) {
-
-	// Set document vars if needed
-	// Support: IE 11+, Edge 17 - 18+
-	// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-	// two documents; shallow comparisons work.
-	// eslint-disable-next-line eqeqeq
-	if ( ( context.ownerDocument || context ) != document ) {
-		setDocument( context );
-	}
-	return contains( context, elem );
-};
-
-Sizzle.attr = function( elem, name ) {
-
-	// Set document vars if needed
-	// Support: IE 11+, Edge 17 - 18+
-	// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-	// two documents; shallow comparisons work.
-	// eslint-disable-next-line eqeqeq
-	if ( ( elem.ownerDocument || elem ) != document ) {
-		setDocument( elem );
-	}
-
-	var fn = Expr.attrHandle[ name.toLowerCase() ],
-
-		// Don't get fooled by Object.prototype properties (jQuery #13807)
-		val = fn && hasOwn.call( Expr.attrHandle, name.toLowerCase() ) ?
-			fn( elem, name, !documentIsHTML ) :
-			undefined;
-
-	return val !== undefined ?
-		val :
-		support.attributes || !documentIsHTML ?
-			elem.getAttribute( name ) :
-			( val = elem.getAttributeNode( name ) ) && val.specified ?
-				val.value :
-				null;
-};
-
-Sizzle.escape = function( sel ) {
-	return ( sel + "" ).replace( rcssescape, fcssescape );
-};
-
-Sizzle.error = function( msg ) {
-	throw new Error( "Syntax error, unrecognized expression: " + msg );
-};
-
-/**
- * Document sorting and removing duplicates
- * @param {ArrayLike} results
- */
-Sizzle.uniqueSort = function( results ) {
-	var elem,
-		duplicates = [],
-		j = 0,
-		i = 0;
-
-	// Unless we *know* we can detect duplicates, assume their presence
-	hasDuplicate = !support.detectDuplicates;
-	sortInput = !support.sortStable && results.slice( 0 );
-	results.sort( sortOrder );
-
-	if ( hasDuplicate ) {
-		while ( ( elem = results[ i++ ] ) ) {
-			if ( elem === results[ i ] ) {
-				j = duplicates.push( i );
-			}
-		}
-		while ( j-- ) {
-			results.splice( duplicates[ j ], 1 );
-		}
-	}
-
-	// Clear input after sorting to release objects
-	// See https://github.com/jquery/sizzle/pull/225
-	sortInput = null;
-
-	return results;
-};
-
-/**
- * Utility function for retrieving the text value of an array of DOM nodes
- * @param {Array|Element} elem
- */
-getText = Sizzle.getText = function( elem ) {
-	var node,
-		ret = "",
-		i = 0,
-		nodeType = elem.nodeType;
-
-	if ( !nodeType ) {
-
-		// If no nodeType, this is expected to be an array
-		while ( ( node = elem[ i++ ] ) ) {
-
-			// Do not traverse comment nodes
-			ret += getText( node );
-		}
-	} else if ( nodeType === 1 || nodeType === 9 || nodeType === 11 ) {
-
-		// Use textContent for elements
-		// innerText usage removed for consistency of new lines (jQuery #11153)
-		if ( typeof elem.textContent === "string" ) {
-			return elem.textContent;
-		} else {
-
-			// Traverse its children
-			for ( elem = elem.firstChild; elem; elem = elem.nextSibling ) {
-				ret += getText( elem );
-			}
-		}
-	} else if ( nodeType === 3 || nodeType === 4 ) {
-		return elem.nodeValue;
-	}
-
-	// Do not include comment or processing instruction nodes
-
-	return ret;
-};
-
-Expr = Sizzle.selectors = {
-
-	// Can be adjusted by the user
-	cacheLength: 50,
-
-	createPseudo: markFunction,
-
-	match: matchExpr,
-
-	attrHandle: {},
-
-	find: {},
-
-	relative: {
-		">": { dir: "parentNode", first: true },
-		" ": { dir: "parentNode" },
-		"+": { dir: "previousSibling", first: true },
-		"~": { dir: "previousSibling" }
-	},
-
-	preFilter: {
-		"ATTR": function( match ) {
-			match[ 1 ] = match[ 1 ].replace( runescape, funescape );
-
-			// Move the given value to match[3] whether quoted or unquoted
-			match[ 3 ] = ( match[ 3 ] || match[ 4 ] ||
-				match[ 5 ] || "" ).replace( runescape, funescape );
-
-			if ( match[ 2 ] === "~=" ) {
-				match[ 3 ] = " " + match[ 3 ] + " ";
-			}
-
-			return match.slice( 0, 4 );
-		},
-
-		"CHILD": function( match ) {
-
-			/* matches from matchExpr["CHILD"]
-				1 type (only|nth|...)
-				2 what (child|of-type)
-				3 argument (even|odd|\d*|\d*n([+-]\d+)?|...)
-				4 xn-component of xn+y argument ([+-]?\d*n|)
-				5 sign of xn-component
-				6 x of xn-component
-				7 sign of y-component
-				8 y of y-component
-			*/
-			match[ 1 ] = match[ 1 ].toLowerCase();
-
-			if ( match[ 1 ].slice( 0, 3 ) === "nth" ) {
-
-				// nth-* requires argument
-				if ( !match[ 3 ] ) {
-					Sizzle.error( match[ 0 ] );
-				}
-
-				// numeric x and y parameters for Expr.filter.CHILD
-				// remember that false/true cast respectively to 0/1
-				match[ 4 ] = +( match[ 4 ] ?
-					match[ 5 ] + ( match[ 6 ] || 1 ) :
-					2 * ( match[ 3 ] === "even" || match[ 3 ] === "odd" ) );
-				match[ 5 ] = +( ( match[ 7 ] + match[ 8 ] ) || match[ 3 ] === "odd" );
-
-				// other types prohibit arguments
-			} else if ( match[ 3 ] ) {
-				Sizzle.error( match[ 0 ] );
-			}
-
-			return match;
-		},
-
-		"PSEUDO": function( match ) {
-			var excess,
-				unquoted = !match[ 6 ] && match[ 2 ];
-
-			if ( matchExpr[ "CHILD" ].test( match[ 0 ] ) ) {
-				return null;
-			}
-
-			// Accept quoted arguments as-is
-			if ( match[ 3 ] ) {
-				match[ 2 ] = match[ 4 ] || match[ 5 ] || "";
-
-			// Strip excess characters from unquoted arguments
-			} else if ( unquoted && rpseudo.test( unquoted ) &&
-
-				// Get excess from tokenize (recursively)
-				( excess = tokenize( unquoted, true ) ) &&
-
-				// advance to the next closing parenthesis
-				( excess = unquoted.indexOf( ")", unquoted.length - excess ) - unquoted.length ) ) {
-
-				// excess is a negative index
-				match[ 0 ] = match[ 0 ].slice( 0, excess );
-				match[ 2 ] = unquoted.slice( 0, excess );
-			}
-
-			// Return only captures needed by the pseudo filter method (type and argument)
-			return match.slice( 0, 3 );
-		}
-	},
-
-	filter: {
-
-		"TAG": function( nodeNameSelector ) {
-			var nodeName = nodeNameSelector.replace( runescape, funescape ).toLowerCase();
-			return nodeNameSelector === "*" ?
-				function() {
-					return true;
-				} :
-				function( elem ) {
-					return elem.nodeName && elem.nodeName.toLowerCase() === nodeName;
-				};
-		},
-
-		"CLASS": function( className ) {
-			var pattern = classCache[ className + " " ];
-
-			return pattern ||
-				( pattern = new RegExp( "(^|" + whitespace +
-					")" + className + "(" + whitespace + "|$)" ) ) && classCache(
-						className, function( elem ) {
-							return pattern.test(
-								typeof elem.className === "string" && elem.className ||
-								typeof elem.getAttribute !== "undefined" &&
-									elem.getAttribute( "class" ) ||
-								""
-							);
-				} );
-		},
-
-		"ATTR": function( name, operator, check ) {
-			return function( elem ) {
-				var result = Sizzle.attr( elem, name );
-
-				if ( result == null ) {
-					return operator === "!=";
-				}
-				if ( !operator ) {
-					return true;
-				}
-
-				result += "";
-
-				/* eslint-disable max-len */
-
-				return operator === "=" ? result === check :
-					operator === "!=" ? result !== check :
-					operator === "^=" ? check && result.indexOf( check ) === 0 :
-					operator === "*=" ? check && result.indexOf( check ) > -1 :
-					operator === "$=" ? check && result.slice( -check.length ) === check :
-					operator === "~=" ? ( " " + result.replace( rwhitespace, " " ) + " " ).indexOf( check ) > -1 :
-					operator === "|=" ? result === check || result.slice( 0, check.length + 1 ) === check + "-" :
-					false;
-				/* eslint-enable max-len */
-
-			};
-		},
-
-		"CHILD": function( type, what, _argument, first, last ) {
-			var simple = type.slice( 0, 3 ) !== "nth",
-				forward = type.slice( -4 ) !== "last",
-				ofType = what === "of-type";
-
-			return first === 1 && last === 0 ?
-
-				// Shortcut for :nth-*(n)
-				function( elem ) {
-					return !!elem.parentNode;
-				} :
-
-				function( elem, _context, xml ) {
-					var cache, uniqueCache, outerCache, node, nodeIndex, start,
-						dir = simple !== forward ? "nextSibling" : "previousSibling",
-						parent = elem.parentNode,
-						name = ofType && elem.nodeName.toLowerCase(),
-						useCache = !xml && !ofType,
-						diff = false;
-
-					if ( parent ) {
-
-						// :(first|last|only)-(child|of-type)
-						if ( simple ) {
-							while ( dir ) {
-								node = elem;
-								while ( ( node = node[ dir ] ) ) {
-									if ( ofType ?
-										node.nodeName.toLowerCase() === name :
-										node.nodeType === 1 ) {
-
-										return false;
-									}
-								}
-
-								// Reverse direction for :only-* (if we haven't yet done so)
-								start = dir = type === "only" && !start && "nextSibling";
-							}
-							return true;
-						}
-
-						start = [ forward ? parent.firstChild : parent.lastChild ];
-
-						// non-xml :nth-child(...) stores cache data on `parent`
-						if ( forward && useCache ) {
-
-							// Seek `elem` from a previously-cached index
-
-							// ...in a gzip-friendly way
-							node = parent;
-							outerCache = node[ expando ] || ( node[ expando ] = {} );
-
-							// Support: IE <9 only
-							// Defend against cloned attroperties (jQuery gh-1709)
-							uniqueCache = outerCache[ node.uniqueID ] ||
-								( outerCache[ node.uniqueID ] = {} );
-
-							cache = uniqueCache[ type ] || [];
-							nodeIndex = cache[ 0 ] === dirruns && cache[ 1 ];
-							diff = nodeIndex && cache[ 2 ];
-							node = nodeIndex && parent.childNodes[ nodeIndex ];
-
-							while ( ( node = ++nodeIndex && node && node[ dir ] ||
-
-								// Fallback to seeking `elem` from the start
-								( diff = nodeIndex = 0 ) || start.pop() ) ) {
-
-								// When found, cache indexes on `parent` and break
-								if ( node.nodeType === 1 && ++diff && node === elem ) {
-									uniqueCache[ type ] = [ dirruns, nodeIndex, diff ];
-									break;
-								}
-							}
-
-						} else {
-
-							// Use previously-cached element index if available
-							if ( useCache ) {
-
-								// ...in a gzip-friendly way
-								node = elem;
-								outerCache = node[ expando ] || ( node[ expando ] = {} );
-
-								// Support: IE <9 only
-								// Defend against cloned attroperties (jQuery gh-1709)
-								uniqueCache = outerCache[ node.uniqueID ] ||
-									( outerCache[ node.uniqueID ] = {} );
-
-								cache = uniqueCache[ type ] || [];
-								nodeIndex = cache[ 0 ] === dirruns && cache[ 1 ];
-								diff = nodeIndex;
-							}
-
-							// xml :nth-child(...)
-							// or :nth-last-child(...) or :nth(-last)?-of-type(...)
-							if ( diff === false ) {
-
-								// Use the same loop as above to seek `elem` from the start
-								while ( ( node = ++nodeIndex && node && node[ dir ] ||
-									( diff = nodeIndex = 0 ) || start.pop() ) ) {
-
-									if ( ( ofType ?
-										node.nodeName.toLowerCase() === name :
-										node.nodeType === 1 ) &&
-										++diff ) {
-
-										// Cache the index of each encountered element
-										if ( useCache ) {
-											outerCache = node[ expando ] ||
-												( node[ expando ] = {} );
-
-											// Support: IE <9 only
-											// Defend against cloned attroperties (jQuery gh-1709)
-											uniqueCache = outerCache[ node.uniqueID ] ||
-												( outerCache[ node.uniqueID ] = {} );
-
-											uniqueCache[ type ] = [ dirruns, diff ];
-										}
-
-										if ( node === elem ) {
-											break;
-										}
-									}
-								}
-							}
-						}
-
-						// Incorporate the offset, then check against cycle size
-						diff -= last;
-						return diff === first || ( diff % first === 0 && diff / first >= 0 );
-					}
-				};
-		},
-
-		"PSEUDO": function( pseudo, argument ) {
-
-			// pseudo-class names are case-insensitive
-			// http://www.w3.org/TR/selectors/#pseudo-classes
-			// Prioritize by case sensitivity in case custom pseudos are added with uppercase letters
-			// Remember that setFilters inherits from pseudos
-			var args,
-				fn = Expr.pseudos[ pseudo ] || Expr.setFilters[ pseudo.toLowerCase() ] ||
-					Sizzle.error( "unsupported pseudo: " + pseudo );
-
-			// The user may use createPseudo to indicate that
-			// arguments are needed to create the filter function
-			// just as Sizzle does
-			if ( fn[ expando ] ) {
-				return fn( argument );
-			}
-
-			// But maintain support for old signatures
-			if ( fn.length > 1 ) {
-				args = [ pseudo, pseudo, "", argument ];
-				return Expr.setFilters.hasOwnProperty( pseudo.toLowerCase() ) ?
-					markFunction( function( seed, matches ) {
-						var idx,
-							matched = fn( seed, argument ),
-							i = matched.length;
-						while ( i-- ) {
-							idx = indexOf( seed, matched[ i ] );
-							seed[ idx ] = !( matches[ idx ] = matched[ i ] );
-						}
-					} ) :
-					function( elem ) {
-						return fn( elem, 0, args );
-					};
-			}
-
-			return fn;
-		}
-	},
-
-	pseudos: {
-
-		// Potentially complex pseudos
-		"not": markFunction( function( selector ) {
-
-			// Trim the selector passed to compile
-			// to avoid treating leading and trailing
-			// spaces as combinators
-			var input = [],
-				results = [],
-				matcher = compile( selector.replace( rtrim, "$1" ) );
-
-			return matcher[ expando ] ?
-				markFunction( function( seed, matches, _context, xml ) {
-					var elem,
-						unmatched = matcher( seed, null, xml, [] ),
-						i = seed.length;
-
-					// Match elements unmatched by `matcher`
-					while ( i-- ) {
-						if ( ( elem = unmatched[ i ] ) ) {
-							seed[ i ] = !( matches[ i ] = elem );
-						}
-					}
-				} ) :
-				function( elem, _context, xml ) {
-					input[ 0 ] = elem;
-					matcher( input, null, xml, results );
-
-					// Don't keep the element (issue #299)
-					input[ 0 ] = null;
-					return !results.pop();
-				};
-		} ),
-
-		"has": markFunction( function( selector ) {
-			return function( elem ) {
-				return Sizzle( selector, elem ).length > 0;
-			};
-		} ),
-
-		"contains": markFunction( function( text ) {
-			text = text.replace( runescape, funescape );
-			return function( elem ) {
-				return ( elem.textContent || getText( elem ) ).indexOf( text ) > -1;
-			};
-		} ),
-
-		// "Whether an element is represented by a :lang() selector
-		// is based solely on the element's language value
-		// being equal to the identifier C,
-		// or beginning with the identifier C immediately followed by "-".
-		// The matching of C against the element's language value is performed case-insensitively.
-		// The identifier C does not have to be a valid language name."
-		// http://www.w3.org/TR/selectors/#lang-pseudo
-		"lang": markFunction( function( lang ) {
-
-			// lang value must be a valid identifier
-			if ( !ridentifier.test( lang || "" ) ) {
-				Sizzle.error( "unsupported lang: " + lang );
-			}
-			lang = lang.replace( runescape, funescape ).toLowerCase();
-			return function( elem ) {
-				var elemLang;
-				do {
-					if ( ( elemLang = documentIsHTML ?
-						elem.lang :
-						elem.getAttribute( "xml:lang" ) || elem.getAttribute( "lang" ) ) ) {
-
-						elemLang = elemLang.toLowerCase();
-						return elemLang === lang || elemLang.indexOf( lang + "-" ) === 0;
-					}
-				} while ( ( elem = elem.parentNode ) && elem.nodeType === 1 );
-				return false;
-			};
-		} ),
-
-		// Miscellaneous
-		"target": function( elem ) {
-			var hash = window.location && window.location.hash;
-			return hash && hash.slice( 1 ) === elem.id;
-		},
-
-		"root": function( elem ) {
-			return elem === docElem;
-		},
-
-		"focus": function( elem ) {
-			return elem === document.activeElement &&
-				( !document.hasFocus || document.hasFocus() ) &&
-				!!( elem.type || elem.href || ~elem.tabIndex );
-		},
-
-		// Boolean properties
-		"enabled": createDisabledPseudo( false ),
-		"disabled": createDisabledPseudo( true ),
-
-		"checked": function( elem ) {
-
-			// In CSS3, :checked should return both checked and selected elements
-			// http://www.w3.org/TR/2011/REC-css3-selectors-20110929/#checked
-			var nodeName = elem.nodeName.toLowerCase();
-			return ( nodeName === "input" && !!elem.checked ) ||
-				( nodeName === "option" && !!elem.selected );
-		},
-
-		"selected": function( elem ) {
-
-			// Accessing this property makes selected-by-default
-			// options in Safari work properly
-			if ( elem.parentNode ) {
-				// eslint-disable-next-line no-unused-expressions
-				elem.parentNode.selectedIndex;
-			}
-
-			return elem.selected === true;
-		},
-
-		// Contents
-		"empty": function( elem ) {
-
-			// http://www.w3.org/TR/selectors/#empty-pseudo
-			// :empty is negated by element (1) or content nodes (text: 3; cdata: 4; entity ref: 5),
-			//   but not by others (comment: 8; processing instruction: 7; etc.)
-			// nodeType < 6 works because attributes (2) do not appear as children
-			for ( elem = elem.firstChild; elem; elem = elem.nextSibling ) {
-				if ( elem.nodeType < 6 ) {
-					return false;
-				}
-			}
-			return true;
-		},
-
-		"parent": function( elem ) {
-			return !Expr.pseudos[ "empty" ]( elem );
-		},
-
-		// Element/input types
-		"header": function( elem ) {
-			return rheader.test( elem.nodeName );
-		},
-
-		"input": function( elem ) {
-			return rinputs.test( elem.nodeName );
-		},
-
-		"button": function( elem ) {
-			var name = elem.nodeName.toLowerCase();
-			return name === "input" && elem.type === "button" || name === "button";
-		},
-
-		"text": function( elem ) {
-			var attr;
-			return elem.nodeName.toLowerCase() === "input" &&
-				elem.type === "text" &&
-
-				// Support: IE<8
-				// New HTML5 attribute values (e.g., "search") appear with elem.type === "text"
-				( ( attr = elem.getAttribute( "type" ) ) == null ||
-					attr.toLowerCase() === "text" );
-		},
-
-		// Position-in-collection
-		"first": createPositionalPseudo( function() {
-			return [ 0 ];
-		} ),
-
-		"last": createPositionalPseudo( function( _matchIndexes, length ) {
-			return [ length - 1 ];
-		} ),
-
-		"eq": createPositionalPseudo( function( _matchIndexes, length, argument ) {
-			return [ argument < 0 ? argument + length : argument ];
-		} ),
-
-		"even": createPositionalPseudo( function( matchIndexes, length ) {
-			var i = 0;
-			for ( ; i < length; i += 2 ) {
-				matchIndexes.push( i );
-			}
-			return matchIndexes;
-		} ),
-
-		"odd": createPositionalPseudo( function( matchIndexes, length ) {
-			var i = 1;
-			for ( ; i < length; i += 2 ) {
-				matchIndexes.push( i );
-			}
-			return matchIndexes;
-		} ),
-
-		"lt": createPositionalPseudo( function( matchIndexes, length, argument ) {
-			var i = argument < 0 ?
-				argument + length :
-				argument > length ?
-					length :
-					argument;
-			for ( ; --i >= 0; ) {
-				matchIndexes.push( i );
-			}
-			return matchIndexes;
-		} ),
-
-		"gt": createPositionalPseudo( function( matchIndexes, length, argument ) {
-			var i = argument < 0 ? argument + length : argument;
-			for ( ; ++i < length; ) {
-				matchIndexes.push( i );
-			}
-			return matchIndexes;
-		} )
-	}
-};
-
-Expr.pseudos[ "nth" ] = Expr.pseudos[ "eq" ];
-
-// Add button/input type pseudos
-for ( i in { radio: true, checkbox: true, file: true, password: true, image: true } ) {
-	Expr.pseudos[ i ] = createInputPseudo( i );
-}
-for ( i in { submit: true, reset: true } ) {
-	Expr.pseudos[ i ] = createButtonPseudo( i );
-}
-
-// Easy API for creating new setFilters
-function setFilters() {}
-setFilters.prototype = Expr.filters = Expr.pseudos;
-Expr.setFilters = new setFilters();
-
-tokenize = Sizzle.tokenize = function( selector, parseOnly ) {
-	var matched, match, tokens, type,
-		soFar, groups, preFilters,
-		cached = tokenCache[ selector + " " ];
-
-	if ( cached ) {
-		return parseOnly ? 0 : cached.slice( 0 );
-	}
-
-	soFar = selector;
-	groups = [];
-	preFilters = Expr.preFilter;
-
-	while ( soFar ) {
-
-		// Comma and first run
-		if ( !matched || ( match = rcomma.exec( soFar ) ) ) {
-			if ( match ) {
-
-				// Don't consume trailing commas as valid
-				soFar = soFar.slice( match[ 0 ].length ) || soFar;
-			}
-			groups.push( ( tokens = [] ) );
-		}
-
-		matched = false;
-
-		// Combinators
-		if ( ( match = rcombinators.exec( soFar ) ) ) {
-			matched = match.shift();
-			tokens.push( {
-				value: matched,
-
-				// Cast descendant combinators to space
-				type: match[ 0 ].replace( rtrim, " " )
-			} );
-			soFar = soFar.slice( matched.length );
-		}
-
-		// Filters
-		for ( type in Expr.filter ) {
-			if ( ( match = matchExpr[ type ].exec( soFar ) ) && ( !preFilters[ type ] ||
-				( match = preFilters[ type ]( match ) ) ) ) {
-				matched = match.shift();
-				tokens.push( {
-					value: matched,
-					type: type,
-					matches: match
-				} );
-				soFar = soFar.slice( matched.length );
-			}
-		}
-
-		if ( !matched ) {
-			break;
-		}
-	}
-
-	// Return the length of the invalid excess
-	// if we're just parsing
-	// Otherwise, throw an error or return tokens
-	return parseOnly ?
-		soFar.length :
-		soFar ?
-			Sizzle.error( selector ) :
-
-			// Cache the tokens
-			tokenCache( selector, groups ).slice( 0 );
-};
-
-function toSelector( tokens ) {
-	var i = 0,
-		len = tokens.length,
-		selector = "";
-	for ( ; i < len; i++ ) {
-		selector += tokens[ i ].value;
-	}
-	return selector;
-}
-
-function addCombinator( matcher, combinator, base ) {
-	var dir = combinator.dir,
-		skip = combinator.next,
-		key = skip || dir,
-		checkNonElements = base && key === "parentNode",
-		doneName = done++;
-
-	return combinator.first ?
-
-		// Check against closest ancestor/preceding element
-		function( elem, context, xml ) {
-			while ( ( elem = elem[ dir ] ) ) {
-				if ( elem.nodeType === 1 || checkNonElements ) {
-					return matcher( elem, context, xml );
-				}
-			}
-			return false;
-		} :
-
-		// Check against all ancestor/preceding elements
-		function( elem, context, xml ) {
-			var oldCache, uniqueCache, outerCache,
-				newCache = [ dirruns, doneName ];
-
-			// We can't set arbitrary data on XML nodes, so they don't benefit from combinator caching
-			if ( xml ) {
-				while ( ( elem = elem[ dir ] ) ) {
-					if ( elem.nodeType === 1 || checkNonElements ) {
-						if ( matcher( elem, context, xml ) ) {
-							return true;
-						}
-					}
-				}
-			} else {
-				while ( ( elem = elem[ dir ] ) ) {
-					if ( elem.nodeType === 1 || checkNonElements ) {
-						outerCache = elem[ expando ] || ( elem[ expando ] = {} );
-
-						// Support: IE <9 only
-						// Defend against cloned attroperties (jQuery gh-1709)
-						uniqueCache = outerCache[ elem.uniqueID ] ||
-							( outerCache[ elem.uniqueID ] = {} );
-
-						if ( skip && skip === elem.nodeName.toLowerCase() ) {
-							elem = elem[ dir ] || elem;
-						} else if ( ( oldCache = uniqueCache[ key ] ) &&
-							oldCache[ 0 ] === dirruns && oldCache[ 1 ] === doneName ) {
-
-							// Assign to newCache so results back-propagate to previous elements
-							return ( newCache[ 2 ] = oldCache[ 2 ] );
-						} else {
-
-							// Reuse newcache so results back-propagate to previous elements
-							uniqueCache[ key ] = newCache;
-
-							// A match means we're done; a fail means we have to keep checking
-							if ( ( newCache[ 2 ] = matcher( elem, context, xml ) ) ) {
-								return true;
-							}
-						}
-					}
-				}
-			}
-			return false;
-		};
-}
-
-function elementMatcher( matchers ) {
-	return matchers.length > 1 ?
-		function( elem, context, xml ) {
-			var i = matchers.length;
-			while ( i-- ) {
-				if ( !matchers[ i ]( elem, context, xml ) ) {
-					return false;
-				}
-			}
-			return true;
-		} :
-		matchers[ 0 ];
-}
-
-function multipleContexts( selector, contexts, results ) {
-	var i = 0,
-		len = contexts.length;
-	for ( ; i < len; i++ ) {
-		Sizzle( selector, contexts[ i ], results );
-	}
-	return results;
-}
-
-function condense( unmatched, map, filter, context, xml ) {
-	var elem,
-		newUnmatched = [],
-		i = 0,
-		len = unmatched.length,
-		mapped = map != null;
-
-	for ( ; i < len; i++ ) {
-		if ( ( elem = unmatched[ i ] ) ) {
-			if ( !filter || filter( elem, context, xml ) ) {
-				newUnmatched.push( elem );
-				if ( mapped ) {
-					map.push( i );
-				}
-			}
-		}
-	}
-
-	return newUnmatched;
-}
-
-function setMatcher( preFilter, selector, matcher, postFilter, postFinder, postSelector ) {
-	if ( postFilter && !postFilter[ expando ] ) {
-		postFilter = setMatcher( postFilter );
-	}
-	if ( postFinder && !postFinder[ expando ] ) {
-		postFinder = setMatcher( postFinder, postSelector );
-	}
-	return markFunction( function( seed, results, context, xml ) {
-		var temp, i, elem,
-			preMap = [],
-			postMap = [],
-			preexisting = results.length,
-
-			// Get initial elements from seed or context
-			elems = seed || multipleContexts(
-				selector || "*",
-				context.nodeType ? [ context ] : context,
-				[]
-			),
-
-			// Prefilter to get matcher input, preserving a map for seed-results synchronization
-			matcherIn = preFilter && ( seed || !selector ) ?
-				condense( elems, preMap, preFilter, context, xml ) :
-				elems,
-
-			matcherOut = matcher ?
-
-				// If we have a postFinder, or filtered seed, or non-seed postFilter or preexisting results,
-				postFinder || ( seed ? preFilter : preexisting || postFilter ) ?
-
-					// ...intermediate processing is necessary
-					[] :
-
-					// ...otherwise use results directly
-					results :
-				matcherIn;
-
-		// Find primary matches
-		if ( matcher ) {
-			matcher( matcherIn, matcherOut, context, xml );
-		}
-
-		// Apply postFilter
-		if ( postFilter ) {
-			temp = condense( matcherOut, postMap );
-			postFilter( temp, [], context, xml );
-
-			// Un-match failing elements by moving them back to matcherIn
-			i = temp.length;
-			while ( i-- ) {
-				if ( ( elem = temp[ i ] ) ) {
-					matcherOut[ postMap[ i ] ] = !( matcherIn[ postMap[ i ] ] = elem );
-				}
-			}
-		}
-
-		if ( seed ) {
-			if ( postFinder || preFilter ) {
-				if ( postFinder ) {
-
-					// Get the final matcherOut by condensing this intermediate into postFinder contexts
-					temp = [];
-					i = matcherOut.length;
-					while ( i-- ) {
-						if ( ( elem = matcherOut[ i ] ) ) {
-
-							// Restore matcherIn since elem is not yet a final match
-							temp.push( ( matcherIn[ i ] = elem ) );
-						}
-					}
-					postFinder( null, ( matcherOut = [] ), temp, xml );
-				}
-
-				// Move matched elements from seed to results to keep them synchronized
-				i = matcherOut.length;
-				while ( i-- ) {
-					if ( ( elem = matcherOut[ i ] ) &&
-						( temp = postFinder ? indexOf( seed, elem ) : preMap[ i ] ) > -1 ) {
-
-						seed[ temp ] = !( results[ temp ] = elem );
-					}
-				}
-			}
-
-		// Add elements to results, through postFinder if defined
-		} else {
-			matcherOut = condense(
-				matcherOut === results ?
-					matcherOut.splice( preexisting, matcherOut.length ) :
-					matcherOut
-			);
-			if ( postFinder ) {
-				postFinder( null, results, matcherOut, xml );
-			} else {
-				push.apply( results, matcherOut );
-			}
-		}
-	} );
-}
-
-function matcherFromTokens( tokens ) {
-	var checkContext, matcher, j,
-		len = tokens.length,
-		leadingRelative = Expr.relative[ tokens[ 0 ].type ],
-		implicitRelative = leadingRelative || Expr.relative[ " " ],
-		i = leadingRelative ? 1 : 0,
-
-		// The foundational matcher ensures that elements are reachable from top-level context(s)
-		matchContext = addCombinator( function( elem ) {
-			return elem === checkContext;
-		}, implicitRelative, true ),
-		matchAnyContext = addCombinator( function( elem ) {
-			return indexOf( checkContext, elem ) > -1;
-		}, implicitRelative, true ),
-		matchers = [ function( elem, context, xml ) {
-			var ret = ( !leadingRelative && ( xml || context !== outermostContext ) ) || (
-				( checkContext = context ).nodeType ?
-					matchContext( elem, context, xml ) :
-					matchAnyContext( elem, context, xml ) );
-
-			// Avoid hanging onto element (issue #299)
-			checkContext = null;
-			return ret;
-		} ];
-
-	for ( ; i < len; i++ ) {
-		if ( ( matcher = Expr.relative[ tokens[ i ].type ] ) ) {
-			matchers = [ addCombinator( elementMatcher( matchers ), matcher ) ];
-		} else {
-			matcher = Expr.filter[ tokens[ i ].type ].apply( null, tokens[ i ].matches );
-
-			// Return special upon seeing a positional matcher
-			if ( matcher[ expando ] ) {
-
-				// Find the next relative operator (if any) for proper handling
-				j = ++i;
-				for ( ; j < len; j++ ) {
-					if ( Expr.relative[ tokens[ j ].type ] ) {
-						break;
-					}
-				}
-				return setMatcher(
-					i > 1 && elementMatcher( matchers ),
-					i > 1 && toSelector(
-
-					// If the preceding token was a descendant combinator, insert an implicit any-element `*`
-					tokens
-						.slice( 0, i - 1 )
-						.concat( { value: tokens[ i - 2 ].type === " " ? "*" : "" } )
-					).replace( rtrim, "$1" ),
-					matcher,
-					i < j && matcherFromTokens( tokens.slice( i, j ) ),
-					j < len && matcherFromTokens( ( tokens = tokens.slice( j ) ) ),
-					j < len && toSelector( tokens )
-				);
-			}
-			matchers.push( matcher );
-		}
-	}
-
-	return elementMatcher( matchers );
-}
-
-function matcherFromGroupMatchers( elementMatchers, setMatchers ) {
-	var bySet = setMatchers.length > 0,
-		byElement = elementMatchers.length > 0,
-		superMatcher = function( seed, context, xml, results, outermost ) {
-			var elem, j, matcher,
-				matchedCount = 0,
-				i = "0",
-				unmatched = seed && [],
-				setMatched = [],
-				contextBackup = outermostContext,
-
-				// We must always have either seed elements or outermost context
-				elems = seed || byElement && Expr.find[ "TAG" ]( "*", outermost ),
-
-				// Use integer dirruns iff this is the outermost matcher
-				dirrunsUnique = ( dirruns += contextBackup == null ? 1 : Math.random() || 0.1 ),
-				len = elems.length;
-
-			if ( outermost ) {
-
-				// Support: IE 11+, Edge 17 - 18+
-				// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-				// two documents; shallow comparisons work.
-				// eslint-disable-next-line eqeqeq
-				outermostContext = context == document || context || outermost;
-			}
-
-			// Add elements passing elementMatchers directly to results
-			// Support: IE<9, Safari
-			// Tolerate NodeList properties (IE: "length"; Safari: <number>) matching elements by id
-			for ( ; i !== len && ( elem = elems[ i ] ) != null; i++ ) {
-				if ( byElement && elem ) {
-					j = 0;
-
-					// Support: IE 11+, Edge 17 - 18+
-					// IE/Edge sometimes throw a "Permission denied" error when strict-comparing
-					// two documents; shallow comparisons work.
-					// eslint-disable-next-line eqeqeq
-					if ( !context && elem.ownerDocument != document ) {
-						setDocument( elem );
-						xml = !documentIsHTML;
-					}
-					while ( ( matcher = elementMatchers[ j++ ] ) ) {
-						if ( matcher( elem, context || document, xml ) ) {
-							results.push( elem );
-							break;
-						}
-					}
-					if ( outermost ) {
-						dirruns = dirrunsUnique;
-					}
-				}
-
-				// Track unmatched elements for set filters
-				if ( bySet ) {
-
-					// They will have gone through all possible matchers
-					if ( ( elem = !matcher && elem ) ) {
-						matchedCount--;
-					}
-
-					// Lengthen the array for every element, matched or not
-					if ( seed ) {
-						unmatched.push( elem );
-					}
-				}
-			}
-
-			// `i` is now the count of elements visited above, and adding it to `matchedCount`
-			// makes the latter nonnegative.
-			matchedCount += i;
-
-			// Apply set filters to unmatched elements
-			// NOTE: This can be skipped if there are no unmatched elements (i.e., `matchedCount`
-			// equals `i`), unless we didn't visit _any_ elements in the above loop because we have
-			// no element matchers and no seed.
-			// Incrementing an initially-string "0" `i` allows `i` to remain a string only in that
-			// case, which will result in a "00" `matchedCount` that differs from `i` but is also
-			// numerically zero.
-			if ( bySet && i !== matchedCount ) {
-				j = 0;
-				while ( ( matcher = setMatchers[ j++ ] ) ) {
-					matcher( unmatched, setMatched, context, xml );
-				}
-
-				if ( seed ) {
-
-					// Reintegrate element matches to eliminate the need for sorting
-					if ( matchedCount > 0 ) {
-						while ( i-- ) {
-							if ( !( unmatched[ i ] || setMatched[ i ] ) ) {
-								setMatched[ i ] = pop.call( results );
-							}
-						}
-					}
-
-					// Discard index placeholder values to get only actual matches
-					setMatched = condense( setMatched );
-				}
-
-				// Add matches to results
-				push.apply( results, setMatched );
-
-				// Seedless set matches succeeding multiple successful matchers stipulate sorting
-				if ( outermost && !seed && setMatched.length > 0 &&
-					( matchedCount + setMatchers.length ) > 1 ) {
-
-					Sizzle.uniqueSort( results );
-				}
-			}
-
-			// Override manipulation of globals by nested matchers
-			if ( outermost ) {
-				dirruns = dirrunsUnique;
-				outermostContext = contextBackup;
-			}
-
-			return unmatched;
-		};
-
-	return bySet ?
-		markFunction( superMatcher ) :
-		superMatcher;
-}
-
-compile = Sizzle.compile = function( selector, match /* Internal Use Only */ ) {
-	var i,
-		setMatchers = [],
-		elementMatchers = [],
-		cached = compilerCache[ selector + " " ];
-
-	if ( !cached ) {
-
-		// Generate a function of recursive functions that can be used to check each element
-		if ( !match ) {
-			match = tokenize( selector );
-		}
-		i = match.length;
-		while ( i-- ) {
-			cached = matcherFromTokens( match[ i ] );
-			if ( cached[ expando ] ) {
-				setMatchers.push( cached );
-			} else {
-				elementMatchers.push( cached );
-			}
-		}
-
-		// Cache the compiled function
-		cached = compilerCache(
-			selector,
-			matcherFromGroupMatchers( elementMatchers, setMatchers )
-		);
-
-		// Save selector and tokenization
-		cached.selector = selector;
-	}
-	return cached;
-};
-
-/**
- * A low-level selection function that works with Sizzle's compiled
- *  selector functions
- * @param {String|Function} selector A selector or a pre-compiled
- *  selector function built with Sizzle.compile
- * @param {Element} context
- * @param {Array} [results]
- * @param {Array} [seed] A set of elements to match against
- */
-select = Sizzle.select = function( selector, context, results, seed ) {
-	var i, tokens, token, type, find,
-		compiled = typeof selector === "function" && selector,
-		match = !seed && tokenize( ( selector = compiled.selector || selector ) );
-
-	results = results || [];
-
-	// Try to minimize operations if there is only one selector in the list and no seed
-	// (the latter of which guarantees us context)
-	if ( match.length === 1 ) {
-
-		// Reduce context if the leading compound selector is an ID
-		tokens = match[ 0 ] = match[ 0 ].slice( 0 );
-		if ( tokens.length > 2 && ( token = tokens[ 0 ] ).type === "ID" &&
-			context.nodeType === 9 && documentIsHTML && Expr.relative[ tokens[ 1 ].type ] ) {
-
-			context = ( Expr.find[ "ID" ]( token.matches[ 0 ]
-				.replace( runescape, funescape ), context ) || [] )[ 0 ];
-			if ( !context ) {
-				return results;
-
-			// Precompiled matchers will still verify ancestry, so step up a level
-			} else if ( compiled ) {
-				context = context.parentNode;
-			}
-
-			selector = selector.slice( tokens.shift().value.length );
-		}
-
-		// Fetch a seed set for right-to-left matching
-		i = matchExpr[ "needsContext" ].test( selector ) ? 0 : tokens.length;
-		while ( i-- ) {
-			token = tokens[ i ];
-
-			// Abort if we hit a combinator
-			if ( Expr.relative[ ( type = token.type ) ] ) {
-				break;
-			}
-			if ( ( find = Expr.find[ type ] ) ) {
-
-				// Search, expanding context for leading sibling combinators
-				if ( ( seed = find(
-					token.matches[ 0 ].replace( runescape, funescape ),
-					rsibling.test( tokens[ 0 ].type ) && testContext( context.parentNode ) ||
-						context
-				) ) ) {
-
-					// If seed is empty or no tokens remain, we can return early
-					tokens.splice( i, 1 );
-					selector = seed.length && toSelector( tokens );
-					if ( !selector ) {
-						push.apply( results, seed );
-						return results;
-					}
-
-					break;
-				}
-			}
-		}
-	}
-
-	// Compile and execute a filtering function if one is not provided
-	// Provide `match` to avoid retokenization if we modified the selector above
-	( compiled || compile( selector, match ) )(
-		seed,
-		context,
-		!documentIsHTML,
-		results,
-		!context || rsibling.test( selector ) && testContext( context.parentNode ) || context
-	);
-	return results;
-};
-
-// One-time assignments
-
-// Sort stability
-support.sortStable = expando.split( "" ).sort( sortOrder ).join( "" ) === expando;
-
-// Support: Chrome 14-35+
-// Always assume duplicates if they aren't passed to the comparison function
-support.detectDuplicates = !!hasDuplicate;
-
-// Initialize against the default document
-setDocument();
-
-// Support: Webkit<537.32 - Safari 6.0.3/Chrome 25 (fixed in Chrome 27)
-// Detached nodes confoundingly follow *each other*
-support.sortDetached = assert( function( el ) {
-
-	// Should return 1, but returns 4 (following)
-	return el.compareDocumentPosition( document.createElement( "fieldset" ) ) & 1;
-} );
-
-// Support: IE<8
-// Prevent attribute/property "interpolation"
-// https://msdn.microsoft.com/en-us/library/ms536429%28VS.85%29.aspx
-if ( !assert( function( el ) {
-	el.innerHTML = "<a href='#'></a>";
-	return el.firstChild.getAttribute( "href" ) === "#";
-} ) ) {
-	addHandle( "type|href|height|width", function( elem, name, isXML ) {
-		if ( !isXML ) {
-			return elem.getAttribute( name, name.toLowerCase() === "type" ? 1 : 2 );
-		}
-	} );
-}
-
-// Support: IE<9
-// Use defaultValue in place of getAttribute("value")
-if ( !support.attributes || !assert( function( el ) {
-	el.innerHTML = "<input/>";
-	el.firstChild.setAttribute( "value", "" );
-	return el.firstChild.getAttribute( "value" ) === "";
-} ) ) {
-	addHandle( "value", function( elem, _name, isXML ) {
-		if ( !isXML && elem.nodeName.toLowerCase() === "input" ) {
-			return elem.defaultValue;
-		}
-	} );
-}
-
-// Support: IE<9
-// Use getAttributeNode to fetch booleans when getAttribute lies
-if ( !assert( function( el ) {
-	return el.getAttribute( "disabled" ) == null;
-} ) ) {
-	addHandle( booleans, function( elem, name, isXML ) {
-		var val;
-		if ( !isXML ) {
-			return elem[ name ] === true ? name.toLowerCase() :
-				( val = elem.getAttributeNode( name ) ) && val.specified ?
-					val.value :
-					null;
-		}
-	} );
-}
-
-return Sizzle;
-
-} )( window );
-
-
-
-jQuery.find = Sizzle;
-jQuery.expr = Sizzle.selectors;
-
-// Deprecated
-jQuery.expr[ ":" ] = jQuery.expr.pseudos;
-jQuery.uniqueSort = jQuery.unique = Sizzle.uniqueSort;
-jQuery.text = Sizzle.getText;
-jQuery.isXMLDoc = Sizzle.isXML;
-jQuery.contains = Sizzle.contains;
-jQuery.escapeSelector = Sizzle.escape;
-
-
-
-
-var dir = function( elem, dir, until ) {
-	var matched = [],
-		truncate = until !== undefined;
-
-	while ( ( elem = elem[ dir ] ) && elem.nodeType !== 9 ) {
-		if ( elem.nodeType === 1 ) {
-			if ( truncate && jQuery( elem ).is( until ) ) {
-				break;
-			}
-			matched.push( elem );
-		}
-	}
-	return matched;
-};
-
-
-var siblings = function( n, elem ) {
-	var matched = [];
-
-	for ( ; n; n = n.nextSibling ) {
-		if ( n.nodeType === 1 && n !== elem ) {
-			matched.push( n );
-		}
-	}
-
-	return matched;
-};
-
-
-var rneedsContext = jQuery.expr.match.needsContext;
-
-
-
-function nodeName( elem, name ) {
-
-  return elem.nodeName && elem.nodeName.toLowerCase() === name.toLowerCase();
-
-};
-var rsingleTag = ( /^<([a-z][^\/\0>:\x20\t\r\n\f]*)[\x20\t\r\n\f]*\/?>(?:<\/\1>|)$/i );
-
-
-
-// Implement the identical functionality for filter and not
-function winnow( elements, qualifier, not ) {
-	if ( isFunction( qualifier ) ) {
-		return jQuery.grep( elements, function( elem, i ) {
-			return !!qualifier.call( elem, i, elem ) !== not;
-		} );
-	}
-
-	// Single element
-	if ( qualifier.nodeType ) {
-		return jQuery.grep( elements, function( elem ) {
-			return ( elem === qualifier ) !== not;
-		} );
-	}
-
-	// Arraylike of elements (jQuery, arguments, Array)
-	if ( typeof qualifier !== "string" ) {
-		return jQuery.grep( elements, function( elem ) {
-			return ( indexOf.call( qualifier, elem ) > -1 ) !== not;
-		} );
-	}
-
-	// Filtered directly for both simple and complex selectors
-	return jQuery.filter( qualifier, elements, not );
-}
-
-jQuery.filter = function( expr, elems, not ) {
-	var elem = elems[ 0 ];
-
-	if ( not ) {
-		expr = ":not(" + expr + ")";
-	}
-
-	if ( elems.length === 1 && elem.nodeType === 1 ) {
-		return jQuery.find.matchesSelector( elem, expr ) ? [ elem ] : [];
-	}
-
-	return jQuery.find.matches( expr, jQuery.grep( elems, function( elem ) {
-		return elem.nodeType === 1;
-	} ) );
-};
-
-jQuery.fn.extend( {
-	find: function( selector ) {
-		var i, ret,
-			len = this.length,
-			self = this;
-
-		if ( typeof selector !== "string" ) {
-			return this.pushStack( jQuery( selector ).filter( function() {
-				for ( i = 0; i < len; i++ ) {
-					if ( jQuery.contains( self[ i ], this ) ) {
-						return true;
-					}
-				}
-			} ) );
-		}
-
-		ret = this.pushStack( [] );
-
-		for ( i = 0; i < len; i++ ) {
-			jQuery.find( selector, self[ i ], ret );
-		}
-
-		return len > 1 ? jQuery.uniqueSort( ret ) : ret;
-	},
-	filter: function( selector ) {
-		return this.pushStack( winnow( this, selector || [], false ) );
-	},
-	not: function( selector ) {
-		return this.pushStack( winnow( this, selector || [], true ) );
-	},
-	is: function( selector ) {
-		return !!winnow(
-			this,
-
-			// If this is a positional/relative selector, check membership in the returned set
-			// so $("p:first").is("p:last") won't return true for a doc with two "p".
-			typeof selector === "string" && rneedsContext.test( selector ) ?
-				jQuery( selector ) :
-				selector || [],
-			false
-		).length;
-	}
-} );
-
-
-// Initialize a jQuery object
-
-
-// A central reference to the root jQuery(document)
-var rootjQuery,
-
-	// A simple way to check for HTML strings
-	// Prioritize #id over <tag> to avoid XSS via location.hash (#9521)
-	// Strict HTML recognition (#11290: must start with <)
-	// Shortcut simple #id case for speed
-	rquickExpr = /^(?:\s*(<[\w\W]+>)[^>]*|#([\w-]+))$/,
-
-	init = jQuery.fn.init = function( selector, context, root ) {
-		var match, elem;
-
-		// HANDLE: $(""), $(null), $(undefined), $(false)
-		if ( !selector ) {
-			return this;
-		}
-
-		// Method init() accepts an alternate rootjQuery
-		// so migrate can support jQuery.sub (gh-2101)
-		root = root || rootjQuery;
-
-		// Handle HTML strings
-		if ( typeof selector === "string" ) {
-			if ( selector[ 0 ] === "<" &&
-				selector[ selector.length - 1 ] === ">" &&
-				selector.length >= 3 ) {
-
-				// Assume that strings that start and end with <> are HTML and skip the regex check
-				match = [ null, selector, null ];
-
-			} else {
-				match = rquickExpr.exec( selector );
-			}
-
-			// Match html or make sure no context is specified for #id
-			if ( match && ( match[ 1 ] || !context ) ) {
-
-				// HANDLE: $(html) -> $(array)
-				if ( match[ 1 ] ) {
-					context = context instanceof jQuery ? context[ 0 ] : context;
-
-					// Option to run scripts is true for back-compat
-					// Intentionally let the error be thrown if parseHTML is not present
-					jQuery.merge( this, jQuery.parseHTML(
-						match[ 1 ],
-						context && context.nodeType ? context.ownerDocument || context : document,
-						true
-					) );
-
-					// HANDLE: $(html, props)
-					if ( rsingleTag.test( match[ 1 ] ) && jQuery.isPlainObject( context ) ) {
-						for ( match in context ) {
-
-							// Properties of context are called as methods if possible
-							if ( isFunction( this[ match ] ) ) {
-								this[ match ]( context[ match ] );
-
-							// ...and otherwise set as attributes
-							} else {
-								this.attr( match, context[ match ] );
-							}
-						}
-					}
-
-					return this;
-
-				// HANDLE: $(#id)
-				} else {
-					elem = document.getElementById( match[ 2 ] );
-
-					if ( elem ) {
-
-						// Inject the element directly into the jQuery object
-						this[ 0 ] = elem;
-						this.length = 1;
-					}
-					return this;
-				}
-
-			// HANDLE: $(expr, $(...))
-			} else if ( !context || context.jquery ) {
-				return ( context || root ).find( selector );
-
-			// HANDLE: $(expr, context)
-			// (which is just equivalent to: $(context).find(expr)
-			} else {
-				return this.constructor( context ).find( selector );
-			}
-
-		// HANDLE: $(DOMElement)
-		} else if ( selector.nodeType ) {
-			this[ 0 ] = selector;
-			this.length = 1;
-			return this;
-
-		// HANDLE: $(function)
-		// Shortcut for document ready
-		} else if ( isFunction( selector ) ) {
-			return root.ready !== undefined ?
-				root.ready( selector ) :
-
-				// Execute immediately if ready is not present
-				selector( jQuery );
-		}
-
-		return jQuery.makeArray( selector, this );
-	};
-
-// Give the init function the jQuery prototype for later instantiation
-init.prototype = jQuery.fn;
-
-// Initialize central reference
-rootjQuery = jQuery( document );
-
-
-var rparentsprev = /^(?:parents|prev(?:Until|All))/,
-
-	// Methods guaranteed to produce a unique set when starting from a unique set
-	guaranteedUnique = {
-		children: true,
-		contents: true,
-		next: true,
-		prev: true
-	};
-
-jQuery.fn.extend( {
-	has: function( target ) {
-		var targets = jQuery( target, this ),
-			l = targets.length;
-
-		return this.filter( function() {
-			var i = 0;
-			for ( ; i < l; i++ ) {
-				if ( jQuery.contains( this, targets[ i ] ) ) {
-					return true;
-				}
-			}
-		} );
-	},
-
-	closest: function( selectors, context ) {
-		var cur,
-			i = 0,
-			l = this.length,
-			matched = [],
-			targets = typeof selectors !== "string" && jQuery( selectors );
-
-		// Positional selectors never match, since there's no _selection_ context
-		if ( !rneedsContext.test( selectors ) ) {
-			for ( ; i < l; i++ ) {
-				for ( cur = this[ i ]; cur && cur !== context; cur = cur.parentNode ) {
-
-					// Always skip document fragments
-					if ( cur.nodeType < 11 && ( targets ?
-						targets.index( cur ) > -1 :
-
-						// Don't pass non-elements to Sizzle
-						cur.nodeType === 1 &&
-							jQuery.find.matchesSelector( cur, selectors ) ) ) {
-
-						matched.push( cur );
-						break;
-					}
-				}
-			}
-		}
-
-		return this.pushStack( matched.length > 1 ? jQuery.uniqueSort( matched ) : matched );
-	},
-
-	// Determine the position of an element within the set
-	index: function( elem ) {
-
-		// No argument, return index in parent
-		if ( !elem ) {
-			return ( this[ 0 ] && this[ 0 ].parentNode ) ? this.first().prevAll().length : -1;
-		}
-
-		// Index in selector
-		if ( typeof elem === "string" ) {
-			return indexOf.call( jQuery( elem ), this[ 0 ] );
-		}
-
-		// Locate the position of the desired element
-		return indexOf.call( this,
-
-			// If it receives a jQuery object, the first element is used
-			elem.jquery ? elem[ 0 ] : elem
-		);
-	},
-
-	add: function( selector, context ) {
-		return this.pushStack(
-			jQuery.uniqueSort(
-				jQuery.merge( this.get(), jQuery( selector, context ) )
-			)
-		);
-	},
-
-	addBack: function( selector ) {
-		return this.add( selector == null ?
-			this.prevObject : this.prevObject.filter( selector )
-		);
-	}
-} );
-
-function sibling( cur, dir ) {
-	while ( ( cur = cur[ dir ] ) && cur.nodeType !== 1 ) {}
-	return cur;
-}
-
-jQuery.each( {
-	parent: function( elem ) {
-		var parent = elem.parentNode;
-		return parent && parent.nodeType !== 11 ? parent : null;
-	},
-	parents: function( elem ) {
-		return dir( elem, "parentNode" );
-	},
-	parentsUntil: function( elem, _i, until ) {
-		return dir( elem, "parentNode", until );
-	},
-	next: function( elem ) {
-		return sibling( elem, "nextSibling" );
-	},
-	prev: function( elem ) {
-		return sibling( elem, "previousSibling" );
-	},
-	nextAll: function( elem ) {
-		return dir( elem, "nextSibling" );
-	},
-	prevAll: function( elem ) {
-		return dir( elem, "previousSibling" );
-	},
-	nextUntil: function( elem, _i, until ) {
-		return dir( elem, "nextSibling", until );
-	},
-	prevUntil: function( elem, _i, until ) {
-		return dir( elem, "previousSibling", until );
-	},
-	siblings: function( elem ) {
-		return siblings( ( elem.parentNode || {} ).firstChild, elem );
-	},
-	children: function( elem ) {
-		return siblings( elem.firstChild );
-	},
-	contents: function( elem ) {
-		if ( elem.contentDocument != null &&
-
-			// Support: IE 11+
-			// <object> elements with no `data` attribute has an object
-			// `contentDocument` with a `null` prototype.
-			getProto( elem.contentDocument ) ) {
-
-			return elem.contentDocument;
-		}
-
-		// Support: IE 9 - 11 only, iOS 7 only, Android Browser <=4.3 only
-		// Treat the template element as a regular one in browsers that
-		// don't support it.
-		if ( nodeName( elem, "template" ) ) {
-			elem = elem.content || elem;
-		}
-
-		return jQuery.merge( [], elem.childNodes );
-	}
-}, function( name, fn ) {
-	jQuery.fn[ name ] = function( until, selector ) {
-		var matched = jQuery.map( this, fn, until );
-
-		if ( name.slice( -5 ) !== "Until" ) {
-			selector = until;
-		}
-
-		if ( selector && typeof selector === "string" ) {
-			matched = jQuery.filter( selector, matched );
-		}
-
-		if ( this.length > 1 ) {
-
-			// Remove duplicates
-			if ( !guaranteedUnique[ name ] ) {
-				jQuery.uniqueSort( matched );
-			}
-
-			// Reverse order for parents* and prev-derivatives
-			if ( rparentsprev.test( name ) ) {
-				matched.reverse();
-			}
-		}
-
-		return this.pushStack( matched );
-	};
-} );
-var rnothtmlwhite = ( /[^\x20\t\r\n\f]+/g );
-
-
-
-// Convert String-formatted options into Object-formatted ones
-function createOptions( options ) {
-	var object = {};
-	jQuery.each( options.match( rnothtmlwhite ) || [], function( _, flag ) {
-		object[ flag ] = true;
-	} );
-	return object;
-}
-
-/*
- * Create a callback list using the following parameters:
- *
- *	options: an optional list of space-separated options that will change how
- *			the callback list behaves or a more traditional option object
- *
- * By default a callback list will act like an event callback list and can be
- * "fired" multiple times.
- *
- * Possible options:
- *
- *	once:			will ensure the callback list can only be fired once (like a Deferred)
- *
- *	memory:			will keep track of previous values and will call any callback added
- *					after the list has been fired right away with the latest "memorized"
- *					values (like a Deferred)
- *
- *	unique:			will ensure a callback can only be added once (no duplicate in the list)
- *
- *	stopOnFalse:	interrupt callings when a callback returns false
- *
- */
-jQuery.Callbacks = function( options ) {
-
-	// Convert options from String-formatted to Object-formatted if needed
-	// (we check in cache first)
-	options = typeof options === "string" ?
-		createOptions( options ) :
-		jQuery.extend( {}, options );
-
-	var // Flag to know if list is currently firing
-		firing,
-
-		// Last fire value for non-forgettable lists
-		memory,
-
-		// Flag to know if list was already fired
-		fired,
-
-		// Flag to prevent firing
-		locked,
-
-		// Actual callback list
-		list = [],
-
-		// Queue of execution data for repeatable lists
-		queue = [],
-
-		// Index of currently firing callback (modified by add/remove as needed)
-		firingIndex = -1,
-
-		// Fire callbacks
-		fire = function() {
-
-			// Enforce single-firing
-			locked = locked || options.once;
-
-			// Execute callbacks for all pending executions,
-			// respecting firingIndex overrides and runtime changes
-			fired = firing = true;
-			for ( ; queue.length; firingIndex = -1 ) {
-				memory = queue.shift();
-				while ( ++firingIndex < list.length ) {
-
-					// Run callback and check for early termination
-					if ( list[ firingIndex ].apply( memory[ 0 ], memory[ 1 ] ) === false &&
-						options.stopOnFalse ) {
-
-						// Jump to end and forget the data so .add doesn't re-fire
-						firingIndex = list.length;
-						memory = false;
-					}
-				}
-			}
-
-			// Forget the data if we're done with it
-			if ( !options.memory ) {
-				memory = false;
-			}
-
-			firing = false;
-
-			// Clean up if we're done firing for good
-			if ( locked ) {
-
-				// Keep an empty list if we have data for future add calls
-				if ( memory ) {
-					list = [];
-
-				// Otherwise, this object is spent
-				} else {
-					list = "";
-				}
-			}
-		},
-
-		// Actual Callbacks object
-		self = {
-
-			// Add a callback or a collection of callbacks to the list
-			add: function() {
-				if ( list ) {
-
-					// If we have memory from a past run, we should fire after adding
-					if ( memory && !firing ) {
-						firingIndex = list.length - 1;
-						queue.push( memory );
-					}
-
-					( function add( args ) {
-						jQuery.each( args, function( _, arg ) {
-							if ( isFunction( arg ) ) {
-								if ( !options.unique || !self.has( arg ) ) {
-									list.push( arg );
-								}
-							} else if ( arg && arg.length && toType( arg ) !== "string" ) {
-
-								// Inspect recursively
-								add( arg );
-							}
-						} );
-					} )( arguments );
-
-					if ( memory && !firing ) {
-						fire();
-					}
-				}
-				return this;
-			},
-
-			// Remove a callback from the list
-			remove: function() {
-				jQuery.each( arguments, function( _, arg ) {
-					var index;
-					while ( ( index = jQuery.inArray( arg, list, index ) ) > -1 ) {
-						list.splice( index, 1 );
-
-						// Handle firing indexes
-						if ( index <= firingIndex ) {
-							firingIndex--;
-						}
-					}
-				} );
-				return this;
-			},
-
-			// Check if a given callback is in the list.
-			// If no argument is given, return whether or not list has callbacks attached.
-			has: function( fn ) {
-				return fn ?
-					jQuery.inArray( fn, list ) > -1 :
-					list.length > 0;
-			},
-
-			// Remove all callbacks from the list
-			empty: function() {
-				if ( list ) {
-					list = [];
-				}
-				return this;
-			},
-
-			// Disable .fire and .add
-			// Abort any current/pending executions
-			// Clear all callbacks and values
-			disable: function() {
-				locked = queue = [];
-				list = memory = "";
-				return this;
-			},
-			disabled: function() {
-				return !list;
-			},
-
-			// Disable .fire
-			// Also disable .add unless we have memory (since it would have no effect)
-			// Abort any pending executions
-			lock: function() {
-				locked = queue = [];
-				if ( !memory && !firing ) {
-					list = memory = "";
-				}
-				return this;
-			},
-			locked: function() {
-				return !!locked;
-			},
-
-			// Call all callbacks with the given context and arguments
-			fireWith: function( context, args ) {
-				if ( !locked ) {
-					args = args || [];
-					args = [ context, args.slice ? args.slice() : args ];
-					queue.push( args );
-					if ( !firing ) {
-						fire();
-					}
-				}
-				return this;
-			},
-
-			// Call all the callbacks with the given arguments
-			fire: function() {
-				self.fireWith( this, arguments );
-				return this;
-			},
-
-			// To know if the callbacks have already been called at least once
-			fired: function() {
-				return !!fired;
-			}
-		};
-
-	return self;
-};
-
-
-function Identity( v ) {
-	return v;
-}
-function Thrower( ex ) {
-	throw ex;
-}
-
-function adoptValue( value, resolve, reject, noValue ) {
-	var method;
-
-	try {
-
-		// Check for promise aspect first to privilege synchronous behavior
-		if ( value && isFunction( ( method = value.promise ) ) ) {
-			method.call( value ).done( resolve ).fail( reject );
-
-		// Other thenables
-		} else if ( value && isFunction( ( method = value.then ) ) ) {
-			method.call( value, resolve, reject );
-
-		// Other non-thenables
-		} else {
-
-			// Control `resolve` arguments by letting Array#slice cast boolean `noValue` to integer:
-			// * false: [ value ].slice( 0 ) => resolve( value )
-			// * true: [ value ].slice( 1 ) => resolve()
-			resolve.apply( undefined, [ value ].slice( noValue ) );
-		}
-
-	// For Promises/A+, convert exceptions into rejections
-	// Since jQuery.when doesn't unwrap thenables, we can skip the extra checks appearing in
-	// Deferred#then to conditionally suppress rejection.
-	} catch ( value ) {
-
-		// Support: Android 4.0 only
-		// Strict mode functions invoked without .call/.apply get global-object context
-		reject.apply( undefined, [ value ] );
-	}
-}
-
-jQuery.extend( {
-
-	Deferred: function( func ) {
-		var tuples = [
-
-				// action, add listener, callbacks,
-				// ... .then handlers, argument index, [final state]
-				[ "notify", "progress", jQuery.Callbacks( "memory" ),
-					jQuery.Callbacks( "memory" ), 2 ],
-				[ "resolve", "done", jQuery.Callbacks( "once memory" ),
-					jQuery.Callbacks( "once memory" ), 0, "resolved" ],
-				[ "reject", "fail", jQuery.Callbacks( "once memory" ),
-					jQuery.Callbacks( "once memory" ), 1, "rejected" ]
-			],
-			state = "pending",
-			promise = {
-				state: function() {
-					return state;
-				},
-				always: function() {
-					deferred.done( arguments ).fail( arguments );
-					return this;
-				},
-				"catch": function( fn ) {
-					return promise.then( null, fn );
-				},
-
-				// Keep pipe for back-compat
-				pipe: function( /* fnDone, fnFail, fnProgress */ ) {
-					var fns = arguments;
-
-					return jQuery.Deferred( function( newDefer ) {
-						jQuery.each( tuples, function( _i, tuple ) {
-
-							// Map tuples (progress, done, fail) to arguments (done, fail, progress)
-							var fn = isFunction( fns[ tuple[ 4 ] ] ) && fns[ tuple[ 4 ] ];
-
-							// deferred.progress(function() { bind to newDefer or newDefer.notify })
-							// deferred.done(function() { bind to newDefer or newDefer.resolve })
-							// deferred.fail(function() { bind to newDefer or newDefer.reject })
-							deferred[ tuple[ 1 ] ]( function() {
-								var returned = fn && fn.apply( this, arguments );
-								if ( returned && isFunction( returned.promise ) ) {
-									returned.promise()
-										.progress( newDefer.notify )
-										.done( newDefer.resolve )
-										.fail( newDefer.reject );
-								} else {
-									newDefer[ tuple[ 0 ] + "With" ](
-										this,
-										fn ? [ returned ] : arguments
-									);
-								}
-							} );
-						} );
-						fns = null;
-					} ).promise();
-				},
-				then: function( onFulfilled, onRejected, onProgress ) {
-					var maxDepth = 0;
-					function resolve( depth, deferred, handler, special ) {
-						return function() {
-							var that = this,
-								args = arguments,
-								mightThrow = function() {
-									var returned, then;
-
-									// Support: Promises/A+ section 2.3.3.3.3
-									// https://promisesaplus.com/#point-59
-									// Ignore double-resolution attempts
-									if ( depth < maxDepth ) {
-										return;
-									}
-
-									returned = handler.apply( that, args );
-
-									// Support: Promises/A+ section 2.3.1
-									// https://promisesaplus.com/#point-48
-									if ( returned === deferred.promise() ) {
-										throw new TypeError( "Thenable self-resolution" );
-									}
-
-									// Support: Promises/A+ sections 2.3.3.1, 3.5
-									// https://promisesaplus.com/#point-54
-									// https://promisesaplus.com/#point-75
-									// Retrieve `then` only once
-									then = returned &&
-
-										// Support: Promises/A+ section 2.3.4
-										// https://promisesaplus.com/#point-64
-										// Only check objects and functions for thenability
-										( typeof returned === "object" ||
-											typeof returned === "function" ) &&
-										returned.then;
-
-									// Handle a returned thenable
-									if ( isFunction( then ) ) {
-
-										// Special processors (notify) just wait for resolution
-										if ( special ) {
-											then.call(
-												returned,
-												resolve( maxDepth, deferred, Identity, special ),
-												resolve( maxDepth, deferred, Thrower, special )
-											);
-
-										// Normal processors (resolve) also hook into progress
-										} else {
-
-											// ...and disregard older resolution values
-											maxDepth++;
-
-											then.call(
-												returned,
-												resolve( maxDepth, deferred, Identity, special ),
-												resolve( maxDepth, deferred, Thrower, special ),
-												resolve( maxDepth, deferred, Identity,
-													deferred.notifyWith )
-											);
-										}
-
-									// Handle all other returned values
-									} else {
-
-										// Only substitute handlers pass on context
-										// and multiple values (non-spec behavior)
-										if ( handler !== Identity ) {
-											that = undefined;
-											args = [ returned ];
-										}
-
-										// Process the value(s)
-										// Default process is resolve
-										( special || deferred.resolveWith )( that, args );
-									}
-								},
-
-								// Only normal processors (resolve) catch and reject exceptions
-								process = special ?
-									mightThrow :
-									function() {
-										try {
-											mightThrow();
-										} catch ( e ) {
-
-											if ( jQuery.Deferred.exceptionHook ) {
-												jQuery.Deferred.exceptionHook( e,
-													process.stackTrace );
-											}
-
-											// Support: Promises/A+ section 2.3.3.3.4.1
-											// https://promisesaplus.com/#point-61
-											// Ignore post-resolution exceptions
-											if ( depth + 1 >= maxDepth ) {
-
-												// Only substitute handlers pass on context
-												// and multiple values (non-spec behavior)
-												if ( handler !== Thrower ) {
-													that = undefined;
-													args = [ e ];
-												}
-
-												deferred.rejectWith( that, args );
-											}
-										}
-									};
-
-							// Support: Promises/A+ section 2.3.3.3.1
-							// https://promisesaplus.com/#point-57
-							// Re-resolve promises immediately to dodge false rejection from
-							// subsequent errors
-							if ( depth ) {
-								process();
-							} else {
-
-								// Call an optional hook to record the stack, in case of exception
-								// since it's otherwise lost when execution goes async
-								if ( jQuery.Deferred.getStackHook ) {
-									process.stackTrace = jQuery.Deferred.getStackHook();
-								}
-								window.setTimeout( process );
-							}
-						};
-					}
-
-					return jQuery.Deferred( function( newDefer ) {
-
-						// progress_handlers.add( ... )
-						tuples[ 0 ][ 3 ].add(
-							resolve(
-								0,
-								newDefer,
-								isFunction( onProgress ) ?
-									onProgress :
-									Identity,
-								newDefer.notifyWith
-							)
-						);
-
-						// fulfilled_handlers.add( ... )
-						tuples[ 1 ][ 3 ].add(
-							resolve(
-								0,
-								newDefer,
-								isFunction( onFulfilled ) ?
-									onFulfilled :
-									Identity
-							)
-						);
-
-						// rejected_handlers.add( ... )
-						tuples[ 2 ][ 3 ].add(
-							resolve(
-								0,
-								newDefer,
-								isFunction( onRejected ) ?
-									onRejected :
-									Thrower
-							)
-						);
-					} ).promise();
-				},
-
-				// Get a promise for this deferred
-				// If obj is provided, the promise aspect is added to the object
-				promise: function( obj ) {
-					return obj != null ? jQuery.extend( obj, promise ) : promise;
-				}
-			},
-			deferred = {};
-
-		// Add list-specific methods
-		jQuery.each( tuples, function( i, tuple ) {
-			var list = tuple[ 2 ],
-				stateString = tuple[ 5 ];
-
-			// promise.progress = list.add
-			// promise.done = list.add
-			// promise.fail = list.add
-			promise[ tuple[ 1 ] ] = list.add;
-
-			// Handle state
-			if ( stateString ) {
-				list.add(
-					function() {
-
-						// state = "resolved" (i.e., fulfilled)
-						// state = "rejected"
-						state = stateString;
-					},
-
-					// rejected_callbacks.disable
-					// fulfilled_callbacks.disable
-					tuples[ 3 - i ][ 2 ].disable,
-
-					// rejected_handlers.disable
-					// fulfilled_handlers.disable
-					tuples[ 3 - i ][ 3 ].disable,
-
-					// progress_callbacks.lock
-					tuples[ 0 ][ 2 ].lock,
-
-					// progress_handlers.lock
-					tuples[ 0 ][ 3 ].lock
-				);
-			}
-
-			// progress_handlers.fire
-			// fulfilled_handlers.fire
-			// rejected_handlers.fire
-			list.add( tuple[ 3 ].fire );
-
-			// deferred.notify = function() { deferred.notifyWith(...) }
-			// deferred.resolve = function() { deferred.resolveWith(...) }
-			// deferred.reject = function() { deferred.rejectWith(...) }
-			deferred[ tuple[ 0 ] ] = function() {
-				deferred[ tuple[ 0 ] + "With" ]( this === deferred ? undefined : this, arguments );
-				return this;
-			};
-
-			// deferred.notifyWith = list.fireWith
-			// deferred.resolveWith = list.fireWith
-			// deferred.rejectWith = list.fireWith
-			deferred[ tuple[ 0 ] + "With" ] = list.fireWith;
-		} );
-
-		// Make the deferred a promise
-		promise.promise( deferred );
-
-		// Call given func if any
-		if ( func ) {
-			func.call( deferred, deferred );
-		}
-
-		// All done!
-		return deferred;
-	},
-
-	// Deferred helper
-	when: function( singleValue ) {
-		var
-
-			// count of uncompleted subordinates
-			remaining = arguments.length,
-
-			// count of unprocessed arguments
-			i = remaining,
-
-			// subordinate fulfillment data
-			resolveContexts = Array( i ),
-			resolveValues = slice.call( arguments ),
-
-			// the master Deferred
-			master = jQuery.Deferred(),
-
-			// subordinate callback factory
-			updateFunc = function( i ) {
-				return function( value ) {
-					resolveContexts[ i ] = this;
-					resolveValues[ i ] = arguments.length > 1 ? slice.call( arguments ) : value;
-					if ( !( --remaining ) ) {
-						master.resolveWith( resolveContexts, resolveValues );
-					}
-				};
-			};
-
-		// Single- and empty arguments are adopted like Promise.resolve
-		if ( remaining <= 1 ) {
-			adoptValue( singleValue, master.done( updateFunc( i ) ).resolve, master.reject,
-				!remaining );
-
-			// Use .then() to unwrap secondary thenables (cf. gh-3000)
-			if ( master.state() === "pending" ||
-				isFunction( resolveValues[ i ] && resolveValues[ i ].then ) ) {
-
-				return master.then();
-			}
-		}
-
-		// Multiple arguments are aggregated like Promise.all array elements
-		while ( i-- ) {
-			adoptValue( resolveValues[ i ], updateFunc( i ), master.reject );
-		}
-
-		return master.promise();
-	}
-} );
-
-
-// These usually indicate a programmer mistake during development,
-// warn about them ASAP rather than swallowing them by default.
-var rerrorNames = /^(Eval|Internal|Range|Reference|Syntax|Type|URI)Error$/;
-
-jQuery.Deferred.exceptionHook = function( error, stack ) {
-
-	// Support: IE 8 - 9 only
-	// Console exists when dev tools are open, which can happen at any time
-	if ( window.console && window.console.warn && error && rerrorNames.test( error.name ) ) {
-		window.console.warn( "jQuery.Deferred exception: " + error.message, error.stack, stack );
-	}
-};
-
-
-
-
-jQuery.readyException = function( error ) {
-	window.setTimeout( function() {
-		throw error;
-	} );
-};
-
-
-
-
-// The deferred used on DOM ready
-var readyList = jQuery.Deferred();
-
-jQuery.fn.ready = function( fn ) {
-
-	readyList
-		.then( fn )
-
-		// Wrap jQuery.readyException in a function so that the lookup
-		// happens at the time of error handling instead of callback
-		// registration.
-		.catch( function( error ) {
-			jQuery.readyException( error );
-		} );
-
-	return this;
-};
-
-jQuery.extend( {
-
-	// Is the DOM ready to be used? Set to true once it occurs.
-	isReady: false,
-
-	// A counter to track how many items to wait for before
-	// the ready event fires. See #6781
-	readyWait: 1,
-
-	// Handle when the DOM is ready
-	ready: function( wait ) {
-
-		// Abort if there are pending holds or we're already ready
-		if ( wait === true ? --jQuery.readyWait : jQuery.isReady ) {
-			return;
-		}
-
-		// Remember that the DOM is ready
-		jQuery.isReady = true;
-
-		// If a normal DOM Ready event fired, decrement, and wait if need be
-		if ( wait !== true && --jQuery.readyWait > 0 ) {
-			return;
-		}
-
-		// If there are functions bound, to execute
-		readyList.resolveWith( document, [ jQuery ] );
-	}
-} );
-
-jQuery.ready.then = readyList.then;
-
-// The ready event handler and self cleanup method
-function completed() {
-	document.removeEventListener( "DOMContentLoaded", completed );
-	window.removeEventListener( "load", completed );
-	jQuery.ready();
-}
-
-// Catch cases where $(document).ready() is called
-// after the browser event has already occurred.
-// Support: IE <=9 - 10 only
-// Older IE sometimes signals "interactive" too soon
-if ( document.readyState === "complete" ||
-	( document.readyState !== "loading" && !document.documentElement.doScroll ) ) {
-
-	// Handle it asynchronously to allow scripts the opportunity to delay ready
-	window.setTimeout( jQuery.ready );
-
-} else {
-
-	// Use the handy event callback
-	document.addEventListener( "DOMContentLoaded", completed );
-
-	// A fallback to window.onload, that will always work
-	window.addEventListener( "load", completed );
-}
-
-
-
-
-// Multifunctional method to get and set values of a collection
-// The value/s can optionally be executed if it's a function
-var access = function( elems, fn, key, value, chainable, emptyGet, raw ) {
-	var i = 0,
-		len = elems.length,
-		bulk = key == null;
-
-	// Sets many values
-	if ( toType( key ) === "object" ) {
-		chainable = true;
-		for ( i in key ) {
-			access( elems, fn, i, key[ i ], true, emptyGet, raw );
-		}
-
-	// Sets one value
-	} else if ( value !== undefined ) {
-		chainable = true;
-
-		if ( !isFunction( value ) ) {
-			raw = true;
-		}
-
-		if ( bulk ) {
-
-			// Bulk operations run against the entire set
-			if ( raw ) {
-				fn.call( elems, value );
-				fn = null;
-
-			// ...except when executing function values
-			} else {
-				bulk = fn;
-				fn = function( elem, _key, value ) {
-					return bulk.call( jQuery( elem ), value );
-				};
-			}
-		}
-
-		if ( fn ) {
-			for ( ; i < len; i++ ) {
-				fn(
-					elems[ i ], key, raw ?
-					value :
-					value.call( elems[ i ], i, fn( elems[ i ], key ) )
-				);
-			}
-		}
-	}
-
-	if ( chainable ) {
-		return elems;
-	}
-
-	// Gets
-	if ( bulk ) {
-		return fn.call( elems );
-	}
-
-	return len ? fn( elems[ 0 ], key ) : emptyGet;
-};
-
-
-// Matches dashed string for camelizing
-var rmsPrefix = /^-ms-/,
-	rdashAlpha = /-([a-z])/g;
-
-// Used by camelCase as callback to replace()
-function fcamelCase( _all, letter ) {
-	return letter.toUpperCase();
-}
-
-// Convert dashed to camelCase; used by the css and data modules
-// Support: IE <=9 - 11, Edge 12 - 15
-// Microsoft forgot to hump their vendor prefix (#9572)
-function camelCase( string ) {
-	return string.replace( rmsPrefix, "ms-" ).replace( rdashAlpha, fcamelCase );
-}
-var acceptData = function( owner ) {
-
-	// Accepts only:
-	//  - Node
-	//    - Node.ELEMENT_NODE
-	//    - Node.DOCUMENT_NODE
-	//  - Object
-	//    - Any
-	return owner.nodeType === 1 || owner.nodeType === 9 || !( +owner.nodeType );
-};
-
-
-
-
-function Data() {
-	this.expando = jQuery.expando + Data.uid++;
-}
-
-Data.uid = 1;
-
-Data.prototype = {
-
-	cache: function( owner ) {
-
-		// Check if the owner object already has a cache
-		var value = owner[ this.expando ];
-
-		// If not, create one
-		if ( !value ) {
-			value = {};
-
-			// We can accept data for non-element nodes in modern browsers,
-			// but we should not, see #8335.
-			// Always return an empty object.
-			if ( acceptData( owner ) ) {
-
-				// If it is a node unlikely to be stringify-ed or looped over
-				// use plain assignment
-				if ( owner.nodeType ) {
-					owner[ this.expando ] = value;
-
-				// Otherwise secure it in a non-enumerable property
-				// configurable must be true to allow the property to be
-				// deleted when data is removed
-				} else {
-					Object.defineProperty( owner, this.expando, {
-						value: value,
-						configurable: true
-					} );
-				}
-			}
-		}
-
-		return value;
-	},
-	set: function( owner, data, value ) {
-		var prop,
-			cache = this.cache( owner );
-
-		// Handle: [ owner, key, value ] args
-		// Always use camelCase key (gh-2257)
-		if ( typeof data === "string" ) {
-			cache[ camelCase( data ) ] = value;
-
-		// Handle: [ owner, { properties } ] args
-		} else {
-
-			// Copy the properties one-by-one to the cache object
-			for ( prop in data ) {
-				cache[ camelCase( prop ) ] = data[ prop ];
-			}
-		}
-		return cache;
-	},
-	get: function( owner, key ) {
-		return key === undefined ?
-			this.cache( owner ) :
-
-			// Always use camelCase key (gh-2257)
-			owner[ this.expando ] && owner[ this.expando ][ camelCase( key ) ];
-	},
-	access: function( owner, key, value ) {
-
-		// In cases where either:
-		//
-		//   1. No key was specified
-		//   2. A string key was specified, but no value provided
-		//
-		// Take the "read" path and allow the get method to determine
-		// which value to return, respectively either:
-		//
-		//   1. The entire cache object
-		//   2. The data stored at the key
-		//
-		if ( key === undefined ||
-				( ( key && typeof key === "string" ) && value === undefined ) ) {
-
-			return this.get( owner, key );
-		}
-
-		// When the key is not a string, or both a key and value
-		// are specified, set or extend (existing objects) with either:
-		//
-		//   1. An object of properties
-		//   2. A key and value
-		//
-		this.set( owner, key, value );
-
-		// Since the "set" path can have two possible entry points
-		// return the expected data based on which path was taken[*]
-		return value !== undefined ? value : key;
-	},
-	remove: function( owner, key ) {
-		var i,
-			cache = owner[ this.expando ];
-
-		if ( cache === undefined ) {
-			return;
-		}
-
-		if ( key !== undefined ) {
-
-			// Support array or space separated string of keys
-			if ( Array.isArray( key ) ) {
-
-				// If key is an array of keys...
-				// We always set camelCase keys, so remove that.
-				key = key.map( camelCase );
-			} else {
-				key = camelCase( key );
-
-				// If a key with the spaces exists, use it.
-				// Otherwise, create an array by matching non-whitespace
-				key = key in cache ?
-					[ key ] :
-					( key.match( rnothtmlwhite ) || [] );
-			}
-
-			i = key.length;
-
-			while ( i-- ) {
-				delete cache[ key[ i ] ];
-			}
-		}
-
-		// Remove the expando if there's no more data
-		if ( key === undefined || jQuery.isEmptyObject( cache ) ) {
-
-			// Support: Chrome <=35 - 45
-			// Webkit & Blink performance suffers when deleting properties
-			// from DOM nodes, so set to undefined instead
-			// https://bugs.chromium.org/p/chromium/issues/detail?id=378607 (bug restricted)
-			if ( owner.nodeType ) {
-				owner[ this.expando ] = undefined;
-			} else {
-				delete owner[ this.expando ];
-			}
-		}
-	},
-	hasData: function( owner ) {
-		var cache = owner[ this.expando ];
-		return cache !== undefined && !jQuery.isEmptyObject( cache );
-	}
-};
-var dataPriv = new Data();
-
-var dataUser = new Data();
-
-
-
-//	Implementation Summary
-//
-//	1. Enforce API surface and semantic compatibility with 1.9.x branch
-//	2. Improve the module's maintainability by reducing the storage
-//		paths to a single mechanism.
-//	3. Use the same single mechanism to support "private" and "user" data.
-//	4. _Never_ expose "private" data to user code (TODO: Drop _data, _removeData)
-//	5. Avoid exposing implementation details on user objects (eg. expando properties)
-//	6. Provide a clear path for implementation upgrade to WeakMap in 2014
-
-var rbrace = /^(?:\{[\w\W]*\}|\[[\w\W]*\])$/,
-	rmultiDash = /[A-Z]/g;
-
-function getData( data ) {
-	if ( data === "true" ) {
-		return true;
-	}
-
-	if ( data === "false" ) {
-		return false;
-	}
-
-	if ( data === "null" ) {
-		return null;
-	}
-
-	// Only convert to a number if it doesn't change the string
-	if ( data === +data + "" ) {
-		return +data;
-	}
-
-	if ( rbrace.test( data ) ) {
-		return JSON.parse( data );
-	}
-
-	return data;
-}
-
-function dataAttr( elem, key, data ) {
-	var name;
-
-	// If nothing was found internally, try to fetch any
-	// data from the HTML5 data-* attribute
-	if ( data === undefined && elem.nodeType === 1 ) {
-		name = "data-" + key.replace( rmultiDash, "-$&" ).toLowerCase();
-		data = elem.getAttribute( name );
-
-		if ( typeof data === "string" ) {
-			try {
-				data = getData( data );
-			} catch ( e ) {}
-
-			// Make sure we set the data so it isn't changed later
-			dataUser.set( elem, key, data );
-		} else {
-			data = undefined;
-		}
-	}
-	return data;
-}
-
-jQuery.extend( {
-	hasData: function( elem ) {
-		return dataUser.hasData( elem ) || dataPriv.hasData( elem );
-	},
-
-	data: function( elem, name, data ) {
-		return dataUser.access( elem, name, data );
-	},
-
-	removeData: function( elem, name ) {
-		dataUser.remove( elem, name );
-	},
-
-	// TODO: Now that all calls to _data and _removeData have been replaced
-	// with direct calls to dataPriv methods, these can be deprecated.
-	_data: function( elem, name, data ) {
-		return dataPriv.access( elem, name, data );
-	},
-
-	_removeData: function( elem, name ) {
-		dataPriv.remove( elem, name );
-	}
-} );
-
-jQuery.fn.extend( {
-	data: function( key, value ) {
-		var i, name, data,
-			elem = this[ 0 ],
-			attrs = elem && elem.attributes;
-
-		// Gets all values
-		if ( key === undefined ) {
-			if ( this.length ) {
-				data = dataUser.get( elem );
-
-				if ( elem.nodeType === 1 && !dataPriv.get( elem, "hasDataAttrs" ) ) {
-					i = attrs.length;
-					while ( i-- ) {
-
-						// Support: IE 11 only
-						// The attrs elements can be null (#14894)
-						if ( attrs[ i ] ) {
-							name = attrs[ i ].name;
-							if ( name.indexOf( "data-" ) === 0 ) {
-								name = camelCase( name.slice( 5 ) );
-								dataAttr( elem, name, data[ name ] );
-							}
-						}
-					}
-					dataPriv.set( elem, "hasDataAttrs", true );
-				}
-			}
-
-			return data;
-		}
-
-		// Sets multiple values
-		if ( typeof key === "object" ) {
-			return this.each( function() {
-				dataUser.set( this, key );
-			} );
-		}
-
-		return access( this, function( value ) {
-			var data;
-
-			// The calling jQuery object (element matches) is not empty
-			// (and therefore has an element appears at this[ 0 ]) and the
-			// `value` parameter was not undefined. An empty jQuery object
-			// will result in `undefined` for elem = this[ 0 ] which will
-			// throw an exception if an attempt to read a data cache is made.
-			if ( elem && value === undefined ) {
-
-				// Attempt to get data from the cache
-				// The key will always be camelCased in Data
-				data = dataUser.get( elem, key );
-				if ( data !== undefined ) {
-					return data;
-				}
-
-				// Attempt to "discover" the data in
-				// HTML5 custom data-* attrs
-				data = dataAttr( elem, key );
-				if ( data !== undefined ) {
-					return data;
-				}
-
-				// We tried really hard, but the data doesn't exist.
-				return;
-			}
-
-			// Set the data...
-			this.each( function() {
-
-				// We always store the camelCased key
-				dataUser.set( this, key, value );
-			} );
-		}, null, value, arguments.length > 1, null, true );
-	},
-
-	removeData: function( key ) {
-		return this.each( function() {
-			dataUser.remove( this, key );
-		} );
-	}
-} );
-
-
-jQuery.extend( {
-	queue: function( elem, type, data ) {
-		var queue;
-
-		if ( elem ) {
-			type = ( type || "fx" ) + "queue";
-			queue = dataPriv.get( elem, type );
-
-			// Speed up dequeue by getting out quickly if this is just a lookup
-			if ( data ) {
-				if ( !queue || Array.isArray( data ) ) {
-					queue = dataPriv.access( elem, type, jQuery.makeArray( data ) );
-				} else {
-					queue.push( data );
-				}
-			}
-			return queue || [];
-		}
-	},
-
-	dequeue: function( elem, type ) {
-		type = type || "fx";
-
-		var queue = jQuery.queue( elem, type ),
-			startLength = queue.length,
-			fn = queue.shift(),
-			hooks = jQuery._queueHooks( elem, type ),
-			next = function() {
-				jQuery.dequeue( elem, type );
-			};
-
-		// If the fx queue is dequeued, always remove the progress sentinel
-		if ( fn === "inprogress" ) {
-			fn = queue.shift();
-			startLength--;
-		}
-
-		if ( fn ) {
-
-			// Add a progress sentinel to prevent the fx queue from being
-			// automatically dequeued
-			if ( type === "fx" ) {
-				queue.unshift( "inprogress" );
-			}
-
-			// Clear up the last queue stop function
-			delete hooks.stop;
-			fn.call( elem, next, hooks );
-		}
-
-		if ( !startLength && hooks ) {
-			hooks.empty.fire();
-		}
-	},
-
-	// Not public - generate a queueHooks object, or return the current one
-	_queueHooks: function( elem, type ) {
-		var key = type + "queueHooks";
-		return dataPriv.get( elem, key ) || dataPriv.access( elem, key, {
-			empty: jQuery.Callbacks( "once memory" ).add( function() {
-				dataPriv.remove( elem, [ type + "queue", key ] );
-			} )
-		} );
-	}
-} );
-
-jQuery.fn.extend( {
-	queue: function( type, data ) {
-		var setter = 2;
-
-		if ( typeof type !== "string" ) {
-			data = type;
-			type = "fx";
-			setter--;
-		}
-
-		if ( arguments.length < setter ) {
-			return jQuery.queue( this[ 0 ], type );
-		}
-
-		return data === undefined ?
-			this :
-			this.each( function() {
-				var queue = jQuery.queue( this, type, data );
-
-				// Ensure a hooks for this queue
-				jQuery._queueHooks( this, type );
-
-				if ( type === "fx" && queue[ 0 ] !== "inprogress" ) {
-					jQuery.dequeue( this, type );
-				}
-			} );
-	},
-	dequeue: function( type ) {
-		return this.each( function() {
-			jQuery.dequeue( this, type );
-		} );
-	},
-	clearQueue: function( type ) {
-		return this.queue( type || "fx", [] );
-	},
-
-	// Get a promise resolved when queues of a certain type
-	// are emptied (fx is the type by default)
-	promise: function( type, obj ) {
-		var tmp,
-			count = 1,
-			defer = jQuery.Deferred(),
-			elements = this,
-			i = this.length,
-			resolve = function() {
-				if ( !( --count ) ) {
-					defer.resolveWith( elements, [ elements ] );
-				}
-			};
-
-		if ( typeof type !== "string" ) {
-			obj = type;
-			type = undefined;
-		}
-		type = type || "fx";
-
-		while ( i-- ) {
-			tmp = dataPriv.get( elements[ i ], type + "queueHooks" );
-			if ( tmp && tmp.empty ) {
-				count++;
-				tmp.empty.add( resolve );
-			}
-		}
-		resolve();
-		return defer.promise( obj );
-	}
-} );
-var pnum = ( /[+-]?(?:\d*\.|)\d+(?:[eE][+-]?\d+|)/ ).source;
-
-var rcssNum = new RegExp( "^(?:([+-])=|)(" + pnum + ")([a-z%]*)$", "i" );
-
-
-var cssExpand = [ "Top", "Right", "Bottom", "Left" ];
-
-var documentElement = document.documentElement;
-
-
-
-	var isAttached = function( elem ) {
-			return jQuery.contains( elem.ownerDocument, elem );
-		},
-		composed = { composed: true };
-
-	// Support: IE 9 - 11+, Edge 12 - 18+, iOS 10.0 - 10.2 only
-	// Check attachment across shadow DOM boundaries when possible (gh-3504)
-	// Support: iOS 10.0-10.2 only
-	// Early iOS 10 versions support `attachShadow` but not `getRootNode`,
-	// leading to errors. We need to check for `getRootNode`.
-	if ( documentElement.getRootNode ) {
-		isAttached = function( elem ) {
-			return jQuery.contains( elem.ownerDocument, elem ) ||
-				elem.getRootNode( composed ) === elem.ownerDocument;
-		};
-	}
-var isHiddenWithinTree = function( elem, el ) {
-
-		// isHiddenWithinTree might be called from jQuery#filter function;
-		// in that case, element will be second argument
-		elem = el || elem;
-
-		// Inline style trumps all
-		return elem.style.display === "none" ||
-			elem.style.display === "" &&
-
-			// Otherwise, check computed style
-			// Support: Firefox <=43 - 45
-			// Disconnected elements can have computed display: none, so first confirm that elem is
-			// in the document.
-			isAttached( elem ) &&
-
-			jQuery.css( elem, "display" ) === "none";
-	};
-
-
-
-function adjustCSS( elem, prop, valueParts, tween ) {
-	var adjusted, scale,
-		maxIterations = 20,
-		currentValue = tween ?
-			function() {
-				return tween.cur();
-			} :
-			function() {
-				return jQuery.css( elem, prop, "" );
-			},
-		initial = currentValue(),
-		unit = valueParts && valueParts[ 3 ] || ( jQuery.cssNumber[ prop ] ? "" : "px" ),
-
-		// Starting value computation is required for potential unit mismatches
-		initialInUnit = elem.nodeType &&
-			( jQuery.cssNumber[ prop ] || unit !== "px" && +initial ) &&
-			rcssNum.exec( jQuery.css( elem, prop ) );
-
-	if ( initialInUnit && initialInUnit[ 3 ] !== unit ) {
-
-		// Support: Firefox <=54
-		// Halve the iteration target value to prevent interference from CSS upper bounds (gh-2144)
-		initial = initial / 2;
-
-		// Trust units reported by jQuery.css
-		unit = unit || initialInUnit[ 3 ];
-
-		// Iteratively approximate from a nonzero starting point
-		initialInUnit = +initial || 1;
-
-		while ( maxIterations-- ) {
-
-			// Evaluate and update our best guess (doubling guesses that zero out).
-			// Finish if the scale equals or crosses 1 (making the old*new product non-positive).
-			jQuery.style( elem, prop, initialInUnit + unit );
-			if ( ( 1 - scale ) * ( 1 - ( scale = currentValue() / initial || 0.5 ) ) <= 0 ) {
-				maxIterations = 0;
-			}
-			initialInUnit = initialInUnit / scale;
-
-		}
-
-		initialInUnit = initialInUnit * 2;
-		jQuery.style( elem, prop, initialInUnit + unit );
-
-		// Make sure we update the tween properties later on
-		valueParts = valueParts || [];
-	}
-
-	if ( valueParts ) {
-		initialInUnit = +initialInUnit || +initial || 0;
-
-		// Apply relative offset (+=/-=) if specified
-		adjusted = valueParts[ 1 ] ?
-			initialInUnit + ( valueParts[ 1 ] + 1 ) * valueParts[ 2 ] :
-			+valueParts[ 2 ];
-		if ( tween ) {
-			tween.unit = unit;
-			tween.start = initialInUnit;
-			tween.end = adjusted;
-		}
-	}
-	return adjusted;
-}
-
-
-var defaultDisplayMap = {};
-
-function getDefaultDisplay( elem ) {
-	var temp,
-		doc = elem.ownerDocument,
-		nodeName = elem.nodeName,
-		display = defaultDisplayMap[ nodeName ];
-
-	if ( display ) {
-		return display;
-	}
-
-	temp = doc.body.appendChild( doc.createElement( nodeName ) );
-	display = jQuery.css( temp, "display" );
-
-	temp.parentNode.removeChild( temp );
-
-	if ( display === "none" ) {
-		display = "block";
-	}
-	defaultDisplayMap[ nodeName ] = display;
-
-	return display;
-}
-
-function showHide( elements, show ) {
-	var display, elem,
-		values = [],
-		index = 0,
-		length = elements.length;
-
-	// Determine new display value for elements that need to change
-	for ( ; index < length; index++ ) {
-		elem = elements[ index ];
-		if ( !elem.style ) {
-			continue;
-		}
-
-		display = elem.style.display;
-		if ( show ) {
-
-			// Since we force visibility upon cascade-hidden elements, an immediate (and slow)
-			// check is required in this first loop unless we have a nonempty display value (either
-			// inline or about-to-be-restored)
-			if ( display === "none" ) {
-				values[ index ] = dataPriv.get( elem, "display" ) || null;
-				if ( !values[ index ] ) {
-					elem.style.display = "";
-				}
-			}
-			if ( elem.style.display === "" && isHiddenWithinTree( elem ) ) {
-				values[ index ] = getDefaultDisplay( elem );
-			}
-		} else {
-			if ( display !== "none" ) {
-				values[ index ] = "none";
-
-				// Remember what we're overwriting
-				dataPriv.set( elem, "display", display );
-			}
-		}
-	}
-
-	// Set the display of the elements in a second loop to avoid constant reflow
-	for ( index = 0; index < length; index++ ) {
-		if ( values[ index ] != null ) {
-			elements[ index ].style.display = values[ index ];
-		}
-	}
-
-	return elements;
-}
-
-jQuery.fn.extend( {
-	show: function() {
-		return showHide( this, true );
-	},
-	hide: function() {
-		return showHide( this );
-	},
-	toggle: function( state ) {
-		if ( typeof state === "boolean" ) {
-			return state ? this.show() : this.hide();
-		}
-
-		return this.each( function() {
-			if ( isHiddenWithinTree( this ) ) {
-				jQuery( this ).show();
-			} else {
-				jQuery( this ).hide();
-			}
-		} );
-	}
-} );
-var rcheckableType = ( /^(?:checkbox|radio)$/i );
-
-var rtagName = ( /<([a-z][^\/\0>\x20\t\r\n\f]*)/i );
-
-var rscriptType = ( /^$|^module$|\/(?:java|ecma)script/i );
-
-
-
-( function() {
-	var fragment = document.createDocumentFragment(),
-		div = fragment.appendChild( document.createElement( "div" ) ),
-		input = document.createElement( "input" );
-
-	// Support: Android 4.0 - 4.3 only
-	// Check state lost if the name is set (#11217)
-	// Support: Windows Web Apps (WWA)
-	// `name` and `type` must use .setAttribute for WWA (#14901)
-	input.setAttribute( "type", "radio" );
-	input.setAttribute( "checked", "checked" );
-	input.setAttribute( "name", "t" );
-
-	div.appendChild( input );
-
-	// Support: Android <=4.1 only
-	// Older WebKit doesn't clone checked state correctly in fragments
-	support.checkClone = div.cloneNode( true ).cloneNode( true ).lastChild.checked;
-
-	// Support: IE <=11 only
-	// Make sure textarea (and checkbox) defaultValue is properly cloned
-	div.innerHTML = "<textarea>x</textarea>";
-	support.noCloneChecked = !!div.cloneNode( true ).lastChild.defaultValue;
-
-	// Support: IE <=9 only
-	// IE <=9 replaces <option> tags with their contents when inserted outside of
-	// the select element.
-	div.innerHTML = "<option></option>";
-	support.option = !!div.lastChild;
-} )();
-
-
-// We have to close these tags to support XHTML (#13200)
-var wrapMap = {
-
-	// XHTML parsers do not magically insert elements in the
-	// same way that tag soup parsers do. So we cannot shorten
-	// this by omitting <tbody> or other required elements.
-	thead: [ 1, "<table>", "</table>" ],
-	col: [ 2, "<table><colgroup>", "</colgroup></table>" ],
-	tr: [ 2, "<table><tbody>", "</tbody></table>" ],
-	td: [ 3, "<table><tbody><tr>", "</tr></tbody></table>" ],
-
-	_default: [ 0, "", "" ]
-};
-
-wrapMap.tbody = wrapMap.tfoot = wrapMap.colgroup = wrapMap.caption = wrapMap.thead;
-wrapMap.th = wrapMap.td;
-
-// Support: IE <=9 only
-if ( !support.option ) {
-	wrapMap.optgroup = wrapMap.option = [ 1, "<select multiple='multiple'>", "</select>" ];
-}
-
-
-function getAll( context, tag ) {
-
-	// Support: IE <=9 - 11 only
-	// Use typeof to avoid zero-argument method invocation on host objects (#15151)
-	var ret;
-
-	if ( typeof context.getElementsByTagName !== "undefined" ) {
-		ret = context.getElementsByTagName( tag || "*" );
-
-	} else if ( typeof context.querySelectorAll !== "undefined" ) {
-		ret = context.querySelectorAll( tag || "*" );
-
-	} else {
-		ret = [];
-	}
-
-	if ( tag === undefined || tag && nodeName( context, tag ) ) {
-		return jQuery.merge( [ context ], ret );
-	}
-
-	return ret;
-}
-
-
-// Mark scripts as having already been evaluated
-function setGlobalEval( elems, refElements ) {
-	var i = 0,
-		l = elems.length;
-
-	for ( ; i < l; i++ ) {
-		dataPriv.set(
-			elems[ i ],
-			"globalEval",
-			!refElements || dataPriv.get( refElements[ i ], "globalEval" )
-		);
-	}
-}
-
-
-var rhtml = /<|&#?\w+;/;
-
-function buildFragment( elems, context, scripts, selection, ignored ) {
-	var elem, tmp, tag, wrap, attached, j,
-		fragment = context.createDocumentFragment(),
-		nodes = [],
-		i = 0,
-		l = elems.length;
-
-	for ( ; i < l; i++ ) {
-		elem = elems[ i ];
-
-		if ( elem || elem === 0 ) {
-
-			// Add nodes directly
-			if ( toType( elem ) === "object" ) {
-
-				// Support: Android <=4.0 only, PhantomJS 1 only
-				// push.apply(_, arraylike) throws on ancient WebKit
-				jQuery.merge( nodes, elem.nodeType ? [ elem ] : elem );
-
-			// Convert non-html into a text node
-			} else if ( !rhtml.test( elem ) ) {
-				nodes.push( context.createTextNode( elem ) );
-
-			// Convert html into DOM nodes
-			} else {
-				tmp = tmp || fragment.appendChild( context.createElement( "div" ) );
-
-				// Deserialize a standard representation
-				tag = ( rtagName.exec( elem ) || [ "", "" ] )[ 1 ].toLowerCase();
-				wrap = wrapMap[ tag ] || wrapMap._default;
-				tmp.innerHTML = wrap[ 1 ] + jQuery.htmlPrefilter( elem ) + wrap[ 2 ];
-
-				// Descend through wrappers to the right content
-				j = wrap[ 0 ];
-				while ( j-- ) {
-					tmp = tmp.lastChild;
-				}
-
-				// Support: Android <=4.0 only, PhantomJS 1 only
-				// push.apply(_, arraylike) throws on ancient WebKit
-				jQuery.merge( nodes, tmp.childNodes );
-
-				// Remember the top-level container
-				tmp = fragment.firstChild;
-
-				// Ensure the created nodes are orphaned (#12392)
-				tmp.textContent = "";
-			}
-		}
-	}
-
-	// Remove wrapper from fragment
-	fragment.textContent = "";
-
-	i = 0;
-	while ( ( elem = nodes[ i++ ] ) ) {
-
-		// Skip elements already in the context collection (trac-4087)
-		if ( selection && jQuery.inArray( elem, selection ) > -1 ) {
-			if ( ignored ) {
-				ignored.push( elem );
-			}
-			continue;
-		}
-
-		attached = isAttached( elem );
-
-		// Append to fragment
-		tmp = getAll( fragment.appendChild( elem ), "script" );
-
-		// Preserve script evaluation history
-		if ( attached ) {
-			setGlobalEval( tmp );
-		}
-
-		// Capture executables
-		if ( scripts ) {
-			j = 0;
-			while ( ( elem = tmp[ j++ ] ) ) {
-				if ( rscriptType.test( elem.type || "" ) ) {
-					scripts.push( elem );
-				}
-			}
-		}
-	}
-
-	return fragment;
-}
-
-
-var
-	rkeyEvent = /^key/,
-	rmouseEvent = /^(?:mouse|pointer|contextmenu|drag|drop)|click/,
-	rtypenamespace = /^([^.]*)(?:\.(.+)|)/;
-
-function returnTrue() {
-	return true;
-}
-
-function returnFalse() {
-	return false;
-}
-
-// Support: IE <=9 - 11+
-// focus() and blur() are asynchronous, except when they are no-op.
-// So expect focus to be synchronous when the element is already active,
-// and blur to be synchronous when the element is not already active.
-// (focus and blur are always synchronous in other supported browsers,
-// this just defines when we can count on it).
-function expectSync( elem, type ) {
-	return ( elem === safeActiveElement() ) === ( type === "focus" );
-}
-
-// Support: IE <=9 only
-// Accessing document.activeElement can throw unexpectedly
-// https://bugs.jquery.com/ticket/13393
-function safeActiveElement() {
-	try {
-		return document.activeElement;
-	} catch ( err ) { }
-}
-
-function on( elem, types, selector, data, fn, one ) {
-	var origFn, type;
-
-	// Types can be a map of types/handlers
-	if ( typeof types === "object" ) {
-
-		// ( types-Object, selector, data )
-		if ( typeof selector !== "string" ) {
-
-			// ( types-Object, data )
-			data = data || selector;
-			selector = undefined;
-		}
-		for ( type in types ) {
-			on( elem, type, selector, data, types[ type ], one );
-		}
-		return elem;
-	}
-
-	if ( data == null && fn == null ) {
-
-		// ( types, fn )
-		fn = selector;
-		data = selector = undefined;
-	} else if ( fn == null ) {
-		if ( typeof selector === "string" ) {
-
-			// ( types, selector, fn )
-			fn = data;
-			data = undefined;
-		} else {
-
-			// ( types, data, fn )
-			fn = data;
-			data = selector;
-			selector = undefined;
-		}
-	}
-	if ( fn === false ) {
-		fn = returnFalse;
-	} else if ( !fn ) {
-		return elem;
-	}
-
-	if ( one === 1 ) {
-		origFn = fn;
-		fn = function( event ) {
-
-			// Can use an empty set, since event contains the info
-			jQuery().off( event );
-			return origFn.apply( this, arguments );
-		};
-
-		// Use same guid so caller can remove using origFn
-		fn.guid = origFn.guid || ( origFn.guid = jQuery.guid++ );
-	}
-	return elem.each( function() {
-		jQuery.event.add( this, types, fn, data, selector );
-	} );
-}
-
-/*
- * Helper functions for managing events -- not part of the public interface.
- * Props to Dean Edwards' addEvent library for many of the ideas.
- */
-jQuery.event = {
-
-	global: {},
-
-	add: function( elem, types, handler, data, selector ) {
-
-		var handleObjIn, eventHandle, tmp,
-			events, t, handleObj,
-			special, handlers, type, namespaces, origType,
-			elemData = dataPriv.get( elem );
-
-		// Only attach events to objects that accept data
-		if ( !acceptData( elem ) ) {
-			return;
-		}
-
-		// Caller can pass in an object of custom data in lieu of the handler
-		if ( handler.handler ) {
-			handleObjIn = handler;
-			handler = handleObjIn.handler;
-			selector = handleObjIn.selector;
-		}
-
-		// Ensure that invalid selectors throw exceptions at attach time
-		// Evaluate against documentElement in case elem is a non-element node (e.g., document)
-		if ( selector ) {
-			jQuery.find.matchesSelector( documentElement, selector );
-		}
-
-		// Make sure that the handler has a unique ID, used to find/remove it later
-		if ( !handler.guid ) {
-			handler.guid = jQuery.guid++;
-		}
-
-		// Init the element's event structure and main handler, if this is the first
-		if ( !( events = elemData.events ) ) {
-			events = elemData.events = Object.create( null );
-		}
-		if ( !( eventHandle = elemData.handle ) ) {
-			eventHandle = elemData.handle = function( e ) {
-
-				// Discard the second event of a jQuery.event.trigger() and
-				// when an event is called after a page has unloaded
-				return typeof jQuery !== "undefined" && jQuery.event.triggered !== e.type ?
-					jQuery.event.dispatch.apply( elem, arguments ) : undefined;
-			};
-		}
-
-		// Handle multiple events separated by a space
-		types = ( types || "" ).match( rnothtmlwhite ) || [ "" ];
-		t = types.length;
-		while ( t-- ) {
-			tmp = rtypenamespace.exec( types[ t ] ) || [];
-			type = origType = tmp[ 1 ];
-			namespaces = ( tmp[ 2 ] || "" ).split( "." ).sort();
-
-			// There *must* be a type, no attaching namespace-only handlers
-			if ( !type ) {
-				continue;
-			}
-
-			// If event changes its type, use the special event handlers for the changed type
-			special = jQuery.event.special[ type ] || {};
-
-			// If selector defined, determine special event api type, otherwise given type
-			type = ( selector ? special.delegateType : special.bindType ) || type;
-
-			// Update special based on newly reset type
-			special = jQuery.event.special[ type ] || {};
-
-			// handleObj is passed to all event handlers
-			handleObj = jQuery.extend( {
-				type: type,
-				origType: origType,
-				data: data,
-				handler: handler,
-				guid: handler.guid,
-				selector: selector,
-				needsContext: selector && jQuery.expr.match.needsContext.test( selector ),
-				namespace: namespaces.join( "." )
-			}, handleObjIn );
-
-			// Init the event handler queue if we're the first
-			if ( !( handlers = events[ type ] ) ) {
-				handlers = events[ type ] = [];
-				handlers.delegateCount = 0;
-
-				// Only use addEventListener if the special events handler returns false
-				if ( !special.setup ||
-					special.setup.call( elem, data, namespaces, eventHandle ) === false ) {
-
-					if ( elem.addEventListener ) {
-						elem.addEventListener( type, eventHandle );
-					}
-				}
-			}
-
-			if ( special.add ) {
-				special.add.call( elem, handleObj );
-
-				if ( !handleObj.handler.guid ) {
-					handleObj.handler.guid = handler.guid;
-				}
-			}
-
-			// Add to the element's handler list, delegates in front
-			if ( selector ) {
-				handlers.splice( handlers.delegateCount++, 0, handleObj );
-			} else {
-				handlers.push( handleObj );
-			}
-
-			// Keep track of which events have ever been used, for event optimization
-			jQuery.event.global[ type ] = true;
-		}
-
-	},
-
-	// Detach an event or set of events from an element
-	remove: function( elem, types, handler, selector, mappedTypes ) {
-
-		var j, origCount, tmp,
-			events, t, handleObj,
-			special, handlers, type, namespaces, origType,
-			elemData = dataPriv.hasData( elem ) && dataPriv.get( elem );
-
-		if ( !elemData || !( events = elemData.events ) ) {
-			return;
-		}
-
-		// Once for each type.namespace in types; type may be omitted
-		types = ( types || "" ).match( rnothtmlwhite ) || [ "" ];
-		t = types.length;
-		while ( t-- ) {
-			tmp = rtypenamespace.exec( types[ t ] ) || [];
-			type = origType = tmp[ 1 ];
-			namespaces = ( tmp[ 2 ] || "" ).split( "." ).sort();
-
-			// Unbind all events (on this namespace, if provided) for the element
-			if ( !type ) {
-				for ( type in events ) {
-					jQuery.event.remove( elem, type + types[ t ], handler, selector, true );
-				}
-				continue;
-			}
-
-			special = jQuery.event.special[ type ] || {};
-			type = ( selector ? special.delegateType : special.bindType ) || type;
-			handlers = events[ type ] || [];
-			tmp = tmp[ 2 ] &&
-				new RegExp( "(^|\\.)" + namespaces.join( "\\.(?:.*\\.|)" ) + "(\\.|$)" );
-
-			// Remove matching events
-			origCount = j = handlers.length;
-			while ( j-- ) {
-				handleObj = handlers[ j ];
-
-				if ( ( mappedTypes || origType === handleObj.origType ) &&
-					( !handler || handler.guid === handleObj.guid ) &&
-					( !tmp || tmp.test( handleObj.namespace ) ) &&
-					( !selector || selector === handleObj.selector ||
-						selector === "**" && handleObj.selector ) ) {
-					handlers.splice( j, 1 );
-
-					if ( handleObj.selector ) {
-						handlers.delegateCount--;
-					}
-					if ( special.remove ) {
-						special.remove.call( elem, handleObj );
-					}
-				}
-			}
-
-			// Remove generic event handler if we removed something and no more handlers exist
-			// (avoids potential for endless recursion during removal of special event handlers)
-			if ( origCount && !handlers.length ) {
-				if ( !special.teardown ||
-					special.teardown.call( elem, namespaces, elemData.handle ) === false ) {
-
-					jQuery.removeEvent( elem, type, elemData.handle );
-				}
-
-				delete events[ type ];
-			}
-		}
-
-		// Remove data and the expando if it's no longer used
-		if ( jQuery.isEmptyObject( events ) ) {
-			dataPriv.remove( elem, "handle events" );
-		}
-	},
-
-	dispatch: function( nativeEvent ) {
-
-		var i, j, ret, matched, handleObj, handlerQueue,
-			args = new Array( arguments.length ),
-
-			// Make a writable jQuery.Event from the native event object
-			event = jQuery.event.fix( nativeEvent ),
-
-			handlers = (
-					dataPriv.get( this, "events" ) || Object.create( null )
-				)[ event.type ] || [],
-			special = jQuery.event.special[ event.type ] || {};
-
-		// Use the fix-ed jQuery.Event rather than the (read-only) native event
-		args[ 0 ] = event;
-
-		for ( i = 1; i < arguments.length; i++ ) {
-			args[ i ] = arguments[ i ];
-		}
-
-		event.delegateTarget = this;
-
-		// Call the preDispatch hook for the mapped type, and let it bail if desired
-		if ( special.preDispatch && special.preDispatch.call( this, event ) === false ) {
-			return;
-		}
-
-		// Determine handlers
-		handlerQueue = jQuery.event.handlers.call( this, event, handlers );
-
-		// Run delegates first; they may want to stop propagation beneath us
-		i = 0;
-		while ( ( matched = handlerQueue[ i++ ] ) && !event.isPropagationStopped() ) {
-			event.currentTarget = matched.elem;
-
-			j = 0;
-			while ( ( handleObj = matched.handlers[ j++ ] ) &&
-				!event.isImmediatePropagationStopped() ) {
-
-				// If the event is namespaced, then each handler is only invoked if it is
-				// specially universal or its namespaces are a superset of the event's.
-				if ( !event.rnamespace || handleObj.namespace === false ||
-					event.rnamespace.test( handleObj.namespace ) ) {
-
-					event.handleObj = handleObj;
-					event.data = handleObj.data;
-
-					ret = ( ( jQuery.event.special[ handleObj.origType ] || {} ).handle ||
-						handleObj.handler ).apply( matched.elem, args );
-
-					if ( ret !== undefined ) {
-						if ( ( event.result = ret ) === false ) {
-							event.preventDefault();
-							event.stopPropagation();
-						}
-					}
-				}
-			}
-		}
-
-		// Call the postDispatch hook for the mapped type
-		if ( special.postDispatch ) {
-			special.postDispatch.call( this, event );
-		}
-
-		return event.result;
-	},
-
-	handlers: function( event, handlers ) {
-		var i, handleObj, sel, matchedHandlers, matchedSelectors,
-			handlerQueue = [],
-			delegateCount = handlers.delegateCount,
-			cur = event.target;
-
-		// Find delegate handlers
-		if ( delegateCount &&
-
-			// Support: IE <=9
-			// Black-hole SVG <use> instance trees (trac-13180)
-			cur.nodeType &&
-
-			// Support: Firefox <=42
-			// Suppress spec-violating clicks indicating a non-primary pointer button (trac-3861)
-			// https://www.w3.org/TR/DOM-Level-3-Events/#event-type-click
-			// Support: IE 11 only
-			// ...but not arrow key "clicks" of radio inputs, which can have `button` -1 (gh-2343)
-			!( event.type === "click" && event.button >= 1 ) ) {
-
-			for ( ; cur !== this; cur = cur.parentNode || this ) {
-
-				// Don't check non-elements (#13208)
-				// Don't process clicks on disabled elements (#6911, #8165, #11382, #11764)
-				if ( cur.nodeType === 1 && !( event.type === "click" && cur.disabled === true ) ) {
-					matchedHandlers = [];
-					matchedSelectors = {};
-					for ( i = 0; i < delegateCount; i++ ) {
-						handleObj = handlers[ i ];
-
-						// Don't conflict with Object.prototype properties (#13203)
-						sel = handleObj.selector + " ";
-
-						if ( matchedSelectors[ sel ] === undefined ) {
-							matchedSelectors[ sel ] = handleObj.needsContext ?
-								jQuery( sel, this ).index( cur ) > -1 :
-								jQuery.find( sel, this, null, [ cur ] ).length;
-						}
-						if ( matchedSelectors[ sel ] ) {
-							matchedHandlers.push( handleObj );
-						}
-					}
-					if ( matchedHandlers.length ) {
-						handlerQueue.push( { elem: cur, handlers: matchedHandlers } );
-					}
-				}
-			}
-		}
-
-		// Add the remaining (directly-bound) handlers
-		cur = this;
-		if ( delegateCount < handlers.length ) {
-			handlerQueue.push( { elem: cur, handlers: handlers.slice( delegateCount ) } );
-		}
-
-		return handlerQueue;
-	},
-
-	addProp: function( name, hook ) {
-		Object.defineProperty( jQuery.Event.prototype, name, {
-			enumerable: true,
-			configurable: true,
-
-			get: isFunction( hook ) ?
-				function() {
-					if ( this.originalEvent ) {
-							return hook( this.originalEvent );
-					}
-				} :
-				function() {
-					if ( this.originalEvent ) {
-							return this.originalEvent[ name ];
-					}
-				},
-
-			set: function( value ) {
-				Object.defineProperty( this, name, {
-					enumerable: true,
-					configurable: true,
-					writable: true,
-					value: value
-				} );
-			}
-		} );
-	},
-
-	fix: function( originalEvent ) {
-		return originalEvent[ jQuery.expando ] ?
-			originalEvent :
-			new jQuery.Event( originalEvent );
-	},
-
-	special: {
-		load: {
-
-			// Prevent triggered image.load events from bubbling to window.load
-			noBubble: true
-		},
-		click: {
-
-			// Utilize native event to ensure correct state for checkable inputs
-			setup: function( data ) {
-
-				// For mutual compressibility with _default, replace `this` access with a local var.
-				// `|| data` is dead code meant only to preserve the variable through minification.
-				var el = this || data;
-
-				// Claim the first handler
-				if ( rcheckableType.test( el.type ) &&
-					el.click && nodeName( el, "input" ) ) {
-
-					// dataPriv.set( el, "click", ... )
-					leverageNative( el, "click", returnTrue );
-				}
-
-				// Return false to allow normal processing in the caller
-				return false;
-			},
-			trigger: function( data ) {
-
-				// For mutual compressibility with _default, replace `this` access with a local var.
-				// `|| data` is dead code meant only to preserve the variable through minification.
-				var el = this || data;
-
-				// Force setup before triggering a click
-				if ( rcheckableType.test( el.type ) &&
-					el.click && nodeName( el, "input" ) ) {
-
-					leverageNative( el, "click" );
-				}
-
-				// Return non-false to allow normal event-path propagation
-				return true;
-			},
-
-			// For cross-browser consistency, suppress native .click() on links
-			// Also prevent it if we're currently inside a leveraged native-event stack
-			_default: function( event ) {
-				var target = event.target;
-				return rcheckableType.test( target.type ) &&
-					target.click && nodeName( target, "input" ) &&
-					dataPriv.get( target, "click" ) ||
-					nodeName( target, "a" );
-			}
-		},
-
-		beforeunload: {
-			postDispatch: function( event ) {
-
-				// Support: Firefox 20+
-				// Firefox doesn't alert if the returnValue field is not set.
-				if ( event.result !== undefined && event.originalEvent ) {
-					event.originalEvent.returnValue = event.result;
-				}
-			}
-		}
-	}
-};
-
-// Ensure the presence of an event listener that handles manually-triggered
-// synthetic events by interrupting progress until reinvoked in response to
-// *native* events that it fires directly, ensuring that state changes have
-// already occurred before other listeners are invoked.
-function leverageNative( el, type, expectSync ) {
-
-	// Missing expectSync indicates a trigger call, which must force setup through jQuery.event.add
-	if ( !expectSync ) {
-		if ( dataPriv.get( el, type ) === undefined ) {
-			jQuery.event.add( el, type, returnTrue );
-		}
-		return;
-	}
-
-	// Register the controller as a special universal handler for all event namespaces
-	dataPriv.set( el, type, false );
-	jQuery.event.add( el, type, {
-		namespace: false,
-		handler: function( event ) {
-			var notAsync, result,
-				saved = dataPriv.get( this, type );
-
-			if ( ( event.isTrigger & 1 ) && this[ type ] ) {
-
-				// Interrupt processing of the outer synthetic .trigger()ed event
-				// Saved data should be false in such cases, but might be a leftover capture object
-				// from an async native handler (gh-4350)
-				if ( !saved.length ) {
-
-					// Store arguments for use when handling the inner native event
-					// There will always be at least one argument (an event object), so this array
-					// will not be confused with a leftover capture object.
-					saved = slice.call( arguments );
-					dataPriv.set( this, type, saved );
-
-					// Trigger the native event and capture its result
-					// Support: IE <=9 - 11+
-					// focus() and blur() are asynchronous
-					notAsync = expectSync( this, type );
-					this[ type ]();
-					result = dataPriv.get( this, type );
-					if ( saved !== result || notAsync ) {
-						dataPriv.set( this, type, false );
-					} else {
-						result = {};
-					}
-					if ( saved !== result ) {
-
-						// Cancel the outer synthetic event
-						event.stopImmediatePropagation();
-						event.preventDefault();
-						return result.value;
-					}
-
-				// If this is an inner synthetic event for an event with a bubbling surrogate
-				// (focus or blur), assume that the surrogate already propagated from triggering the
-				// native event and prevent that from happening again here.
-				// This technically gets the ordering wrong w.r.t. to `.trigger()` (in which the
-				// bubbling surrogate propagates *after* the non-bubbling base), but that seems
-				// less bad than duplication.
-				} else if ( ( jQuery.event.special[ type ] || {} ).delegateType ) {
-					event.stopPropagation();
-				}
-
-			// If this is a native event triggered above, everything is now in order
-			// Fire an inner synthetic event with the original arguments
-			} else if ( saved.length ) {
-
-				// ...and capture the result
-				dataPriv.set( this, type, {
-					value: jQuery.event.trigger(
-
-						// Support: IE <=9 - 11+
-						// Extend with the prototype to reset the above stopImmediatePropagation()
-						jQuery.extend( saved[ 0 ], jQuery.Event.prototype ),
-						saved.slice( 1 ),
-						this
-					)
-				} );
-
-				// Abort handling of the native event
-				event.stopImmediatePropagation();
-			}
-		}
-	} );
-}
-
-jQuery.removeEvent = function( elem, type, handle ) {
-
-	// This "if" is needed for plain objects
-	if ( elem.removeEventListener ) {
-		elem.removeEventListener( type, handle );
-	}
-};
-
-jQuery.Event = function( src, props ) {
-
-	// Allow instantiation without the 'new' keyword
-	if ( !( this instanceof jQuery.Event ) ) {
-		return new jQuery.Event( src, props );
-	}
-
-	// Event object
-	if ( src && src.type ) {
-		this.originalEvent = src;
-		this.type = src.type;
-
-		// Events bubbling up the document may have been marked as prevented
-		// by a handler lower down the tree; reflect the correct value.
-		this.isDefaultPrevented = src.defaultPrevented ||
-				src.defaultPrevented === undefined &&
-
-				// Support: Android <=2.3 only
-				src.returnValue === false ?
-			returnTrue :
-			returnFalse;
-
-		// Create target properties
-		// Support: Safari <=6 - 7 only
-		// Target should not be a text node (#504, #13143)
-		this.target = ( src.target && src.target.nodeType === 3 ) ?
-			src.target.parentNode :
-			src.target;
-
-		this.currentTarget = src.currentTarget;
-		this.relatedTarget = src.relatedTarget;
-
-	// Event type
-	} else {
-		this.type = src;
-	}
-
-	// Put explicitly provided properties onto the event object
-	if ( props ) {
-		jQuery.extend( this, props );
-	}
-
-	// Create a timestamp if incoming event doesn't have one
-	this.timeStamp = src && src.timeStamp || Date.now();
-
-	// Mark it as fixed
-	this[ jQuery.expando ] = true;
-};
-
-// jQuery.Event is based on DOM3 Events as specified by the ECMAScript Language Binding
-// https://www.w3.org/TR/2003/WD-DOM-Level-3-Events-20030331/ecma-script-binding.html
-jQuery.Event.prototype = {
-	constructor: jQuery.Event,
-	isDefaultPrevented: returnFalse,
-	isPropagationStopped: returnFalse,
-	isImmediatePropagationStopped: returnFalse,
-	isSimulated: false,
-
-	preventDefault: function() {
-		var e = this.originalEvent;
-
-		this.isDefaultPrevented = returnTrue;
-
-		if ( e && !this.isSimulated ) {
-			e.preventDefault();
-		}
-	},
-	stopPropagation: function() {
-		var e = this.originalEvent;
-
-		this.isPropagationStopped = returnTrue;
-
-		if ( e && !this.isSimulated ) {
-			e.stopPropagation();
-		}
-	},
-	stopImmediatePropagation: function() {
-		var e = this.originalEvent;
-
-		this.isImmediatePropagationStopped = returnTrue;
-
-		if ( e && !this.isSimulated ) {
-			e.stopImmediatePropagation();
-		}
-
-		this.stopPropagation();
-	}
-};
-
-// Includes all common event props including KeyEvent and MouseEvent specific props
-jQuery.each( {
-	altKey: true,
-	bubbles: true,
-	cancelable: true,
-	changedTouches: true,
-	ctrlKey: true,
-	detail: true,
-	eventPhase: true,
-	metaKey: true,
-	pageX: true,
-	pageY: true,
-	shiftKey: true,
-	view: true,
-	"char": true,
-	code: true,
-	charCode: true,
-	key: true,
-	keyCode: true,
-	button: true,
-	buttons: true,
-	clientX: true,
-	clientY: true,
-	offsetX: true,
-	offsetY: true,
-	pointerId: true,
-	pointerType: true,
-	screenX: true,
-	screenY: true,
-	targetTouches: true,
-	toElement: true,
-	touches: true,
-
-	which: function( event ) {
-		var button = event.button;
-
-		// Add which for key events
-		if ( event.which == null && rkeyEvent.test( event.type ) ) {
-			return event.charCode != null ? event.charCode : event.keyCode;
-		}
-
-		// Add which for click: 1 === left; 2 === middle; 3 === right
-		if ( !event.which && button !== undefined && rmouseEvent.test( event.type ) ) {
-			if ( button & 1 ) {
-				return 1;
-			}
-
-			if ( button & 2 ) {
-				return 3;
-			}
-
-			if ( button & 4 ) {
-				return 2;
-			}
-
-			return 0;
-		}
-
-		return event.which;
-	}
-}, jQuery.event.addProp );
-
-jQuery.each( { focus: "focusin", blur: "focusout" }, function( type, delegateType ) {
-	jQuery.event.special[ type ] = {
-
-		// Utilize native event if possible so blur/focus sequence is correct
-		setup: function() {
-
-			// Claim the first handler
-			// dataPriv.set( this, "focus", ... )
-			// dataPriv.set( this, "blur", ... )
-			leverageNative( this, type, expectSync );
-
-			// Return false to allow normal processing in the caller
-			return false;
-		},
-		trigger: function() {
-
-			// Force setup before trigger
-			leverageNative( this, type );
-
-			// Return non-false to allow normal event-path propagation
-			return true;
-		},
-
-		delegateType: delegateType
-	};
-} );
-
-// Create mouseenter/leave events using mouseover/out and event-time checks
-// so that event delegation works in jQuery.
-// Do the same for pointerenter/pointerleave and pointerover/pointerout
-//
-// Support: Safari 7 only
-// Safari sends mouseenter too often; see:
-// https://bugs.chromium.org/p/chromium/issues/detail?id=470258
-// for the description of the bug (it existed in older Chrome versions as well).
-jQuery.each( {
-	mouseenter: "mouseover",
-	mouseleave: "mouseout",
-	pointerenter: "pointerover",
-	pointerleave: "pointerout"
-}, function( orig, fix ) {
-	jQuery.event.special[ orig ] = {
-		delegateType: fix,
-		bindType: fix,
-
-		handle: function( event ) {
-			var ret,
-				target = this,
-				related = event.relatedTarget,
-				handleObj = event.handleObj;
-
-			// For mouseenter/leave call the handler if related is outside the target.
-			// NB: No relatedTarget if the mouse left/entered the browser window
-			if ( !related || ( related !== target && !jQuery.contains( target, related ) ) ) {
-				event.type = handleObj.origType;
-				ret = handleObj.handler.apply( this, arguments );
-				event.type = fix;
-			}
-			return ret;
-		}
-	};
-} );
-
-jQuery.fn.extend( {
-
-	on: function( types, selector, data, fn ) {
-		return on( this, types, selector, data, fn );
-	},
-	one: function( types, selector, data, fn ) {
-		return on( this, types, selector, data, fn, 1 );
-	},
-	off: function( types, selector, fn ) {
-		var handleObj, type;
-		if ( types && types.preventDefault && types.handleObj ) {
-
-			// ( event )  dispatched jQuery.Event
-			handleObj = types.handleObj;
-			jQuery( types.delegateTarget ).off(
-				handleObj.namespace ?
-					handleObj.origType + "." + handleObj.namespace :
-					handleObj.origType,
-				handleObj.selector,
-				handleObj.handler
-			);
-			return this;
-		}
-		if ( typeof types === "object" ) {
-
-			// ( types-object [, selector] )
-			for ( type in types ) {
-				this.off( type, selector, types[ type ] );
-			}
-			return this;
-		}
-		if ( selector === false || typeof selector === "function" ) {
-
-			// ( types [, fn] )
-			fn = selector;
-			selector = undefined;
-		}
-		if ( fn === false ) {
-			fn = returnFalse;
-		}
-		return this.each( function() {
-			jQuery.event.remove( this, types, fn, selector );
-		} );
-	}
-} );
-
-
-var
-
-	// Support: IE <=10 - 11, Edge 12 - 13 only
-	// In IE/Edge using regex groups here causes severe slowdowns.
-	// See https://connect.microsoft.com/IE/feedback/details/1736512/
-	rnoInnerhtml = /<script|<style|<link/i,
-
-	// checked="checked" or checked
-	rchecked = /checked\s*(?:[^=]|=\s*.checked.)/i,
-	rcleanScript = /^\s*<!(?:\[CDATA\[|--)|(?:\]\]|--)>\s*$/g;
-
-// Prefer a tbody over its parent table for containing new rows
-function manipulationTarget( elem, content ) {
-	if ( nodeName( elem, "table" ) &&
-		nodeName( content.nodeType !== 11 ? content : content.firstChild, "tr" ) ) {
-
-		return jQuery( elem ).children( "tbody" )[ 0 ] || elem;
-	}
-
-	return elem;
-}
-
-// Replace/restore the type attribute of script elements for safe DOM manipulation
-function disableScript( elem ) {
-	elem.type = ( elem.getAttribute( "type" ) !== null ) + "/" + elem.type;
-	return elem;
-}
-function restoreScript( elem ) {
-	if ( ( elem.type || "" ).slice( 0, 5 ) === "true/" ) {
-		elem.type = elem.type.slice( 5 );
-	} else {
-		elem.removeAttribute( "type" );
-	}
-
-	return elem;
-}
-
-function cloneCopyEvent( src, dest ) {
-	var i, l, type, pdataOld, udataOld, udataCur, events;
-
-	if ( dest.nodeType !== 1 ) {
-		return;
-	}
-
-	// 1. Copy private data: events, handlers, etc.
-	if ( dataPriv.hasData( src ) ) {
-		pdataOld = dataPriv.get( src );
-		events = pdataOld.events;
-
-		if ( events ) {
-			dataPriv.remove( dest, "handle events" );
-
-			for ( type in events ) {
-				for ( i = 0, l = events[ type ].length; i < l; i++ ) {
-					jQuery.event.add( dest, type, events[ type ][ i ] );
-				}
-			}
-		}
-	}
-
-	// 2. Copy user data
-	if ( dataUser.hasData( src ) ) {
-		udataOld = dataUser.access( src );
-		udataCur = jQuery.extend( {}, udataOld );
-
-		dataUser.set( dest, udataCur );
-	}
-}
-
-// Fix IE bugs, see support tests
-function fixInput( src, dest ) {
-	var nodeName = dest.nodeName.toLowerCase();
-
-	// Fails to persist the checked state of a cloned checkbox or radio button.
-	if ( nodeName === "input" && rcheckableType.test( src.type ) ) {
-		dest.checked = src.checked;
-
-	// Fails to return the selected option to the default selected state when cloning options
-	} else if ( nodeName === "input" || nodeName === "textarea" ) {
-		dest.defaultValue = src.defaultValue;
-	}
-}
-
-function domManip( collection, args, callback, ignored ) {
-
-	// Flatten any nested arrays
-	args = flat( args );
-
-	var fragment, first, scripts, hasScripts, node, doc,
-		i = 0,
-		l = collection.length,
-		iNoClone = l - 1,
-		value = args[ 0 ],
-		valueIsFunction = isFunction( value );
-
-	// We can't cloneNode fragments that contain checked, in WebKit
-	if ( valueIsFunction ||
-			( l > 1 && typeof value === "string" &&
-				!support.checkClone && rchecked.test( value ) ) ) {
-		return collection.each( function( index ) {
-			var self = collection.eq( index );
-			if ( valueIsFunction ) {
-				args[ 0 ] = value.call( this, index, self.html() );
-			}
-			domManip( self, args, callback, ignored );
-		} );
-	}
-
-	if ( l ) {
-		fragment = buildFragment( args, collection[ 0 ].ownerDocument, false, collection, ignored );
-		first = fragment.firstChild;
-
-		if ( fragment.childNodes.length === 1 ) {
-			fragment = first;
-		}
-
-		// Require either new content or an interest in ignored elements to invoke the callback
-		if ( first || ignored ) {
-			scripts = jQuery.map( getAll( fragment, "script" ), disableScript );
-			hasScripts = scripts.length;
-
-			// Use the original fragment for the last item
-			// instead of the first because it can end up
-			// being emptied incorrectly in certain situations (#8070).
-			for ( ; i < l; i++ ) {
-				node = fragment;
-
-				if ( i !== iNoClone ) {
-					node = jQuery.clone( node, true, true );
-
-					// Keep references to cloned scripts for later restoration
-					if ( hasScripts ) {
-
-						// Support: Android <=4.0 only, PhantomJS 1 only
-						// push.apply(_, arraylike) throws on ancient WebKit
-						jQuery.merge( scripts, getAll( node, "script" ) );
-					}
-				}
-
-				callback.call( collection[ i ], node, i );
-			}
-
-			if ( hasScripts ) {
-				doc = scripts[ scripts.length - 1 ].ownerDocument;
-
-				// Reenable scripts
-				jQuery.map( scripts, restoreScript );
-
-				// Evaluate executable scripts on first document insertion
-				for ( i = 0; i < hasScripts; i++ ) {
-					node = scripts[ i ];
-					if ( rscriptType.test( node.type || "" ) &&
-						!dataPriv.access( node, "globalEval" ) &&
-						jQuery.contains( doc, node ) ) {
-
-						if ( node.src && ( node.type || "" ).toLowerCase()  !== "module" ) {
-
-							// Optional AJAX dependency, but won't run scripts if not present
-							if ( jQuery._evalUrl && !node.noModule ) {
-								jQuery._evalUrl( node.src, {
-									nonce: node.nonce || node.getAttribute( "nonce" )
-								}, doc );
-							}
-						} else {
-							DOMEval( node.textContent.replace( rcleanScript, "" ), node, doc );
-						}
-					}
-				}
-			}
-		}
-	}
-
-	return collection;
-}
-
-function remove( elem, selector, keepData ) {
-	var node,
-		nodes = selector ? jQuery.filter( selector, elem ) : elem,
-		i = 0;
-
-	for ( ; ( node = nodes[ i ] ) != null; i++ ) {
-		if ( !keepData && node.nodeType === 1 ) {
-			jQuery.cleanData( getAll( node ) );
-		}
-
-		if ( node.parentNode ) {
-			if ( keepData && isAttached( node ) ) {
-				setGlobalEval( getAll( node, "script" ) );
-			}
-			node.parentNode.removeChild( node );
-		}
-	}
-
-	return elem;
-}
-
-jQuery.extend( {
-	htmlPrefilter: function( html ) {
-		return html;
-	},
-
-	clone: function( elem, dataAndEvents, deepDataAndEvents ) {
-		var i, l, srcElements, destElements,
-			clone = elem.cloneNode( true ),
-			inPage = isAttached( elem );
-
-		// Fix IE cloning issues
-		if ( !support.noCloneChecked && ( elem.nodeType === 1 || elem.nodeType === 11 ) &&
-				!jQuery.isXMLDoc( elem ) ) {
-
-			// We eschew Sizzle here for performance reasons: https://jsperf.com/getall-vs-sizzle/2
-			destElements = getAll( clone );
-			srcElements = getAll( elem );
-
-			for ( i = 0, l = srcElements.length; i < l; i++ ) {
-				fixInput( srcElements[ i ], destElements[ i ] );
-			}
-		}
-
-		// Copy the events from the original to the clone
-		if ( dataAndEvents ) {
-			if ( deepDataAndEvents ) {
-				srcElements = srcElements || getAll( elem );
-				destElements = destElements || getAll( clone );
-
-				for ( i = 0, l = srcElements.length; i < l; i++ ) {
-					cloneCopyEvent( srcElements[ i ], destElements[ i ] );
-				}
-			} else {
-				cloneCopyEvent( elem, clone );
-			}
-		}
-
-		// Preserve script evaluation history
-		destElements = getAll( clone, "script" );
-		if ( destElements.length > 0 ) {
-			setGlobalEval( destElements, !inPage && getAll( elem, "script" ) );
-		}
-
-		// Return the cloned set
-		return clone;
-	},
-
-	cleanData: function( elems ) {
-		var data, elem, type,
-			special = jQuery.event.special,
-			i = 0;
-
-		for ( ; ( elem = elems[ i ] ) !== undefined; i++ ) {
-			if ( acceptData( elem ) ) {
-				if ( ( data = elem[ dataPriv.expando ] ) ) {
-					if ( data.events ) {
-						for ( type in data.events ) {
-							if ( special[ type ] ) {
-								jQuery.event.remove( elem, type );
-
-							// This is a shortcut to avoid jQuery.event.remove's overhead
-							} else {
-								jQuery.removeEvent( elem, type, data.handle );
-							}
-						}
-					}
-
-					// Support: Chrome <=35 - 45+
-					// Assign undefined instead of using delete, see Data#remove
-					elem[ dataPriv.expando ] = undefined;
-				}
-				if ( elem[ dataUser.expando ] ) {
-
-					// Support: Chrome <=35 - 45+
-					// Assign undefined instead of using delete, see Data#remove
-					elem[ dataUser.expando ] = undefined;
-				}
-			}
-		}
-	}
-} );
-
-jQuery.fn.extend( {
-	detach: function( selector ) {
-		return remove( this, selector, true );
-	},
-
-	remove: function( selector ) {
-		return remove( this, selector );
-	},
-
-	text: function( value ) {
-		return access( this, function( value ) {
-			return value === undefined ?
-				jQuery.text( this ) :
-				this.empty().each( function() {
-					if ( this.nodeType === 1 || this.nodeType === 11 || this.nodeType === 9 ) {
-						this.textContent = value;
-					}
-				} );
-		}, null, value, arguments.length );
-	},
-
-	append: function() {
-		return domManip( this, arguments, function( elem ) {
-			if ( this.nodeType === 1 || this.nodeType === 11 || this.nodeType === 9 ) {
-				var target = manipulationTarget( this, elem );
-				target.appendChild( elem );
-			}
-		} );
-	},
-
-	prepend: function() {
-		return domManip( this, arguments, function( elem ) {
-			if ( this.nodeType === 1 || this.nodeType === 11 || this.nodeType === 9 ) {
-				var target = manipulationTarget( this, elem );
-				target.insertBefore( elem, target.firstChild );
-			}
-		} );
-	},
-
-	before: function() {
-		return domManip( this, arguments, function( elem ) {
-			if ( this.parentNode ) {
-				this.parentNode.insertBefore( elem, this );
-			}
-		} );
-	},
-
-	after: function() {
-		return domManip( this, arguments, function( elem ) {
-			if ( this.parentNode ) {
-				this.parentNode.insertBefore( elem, this.nextSibling );
-			}
-		} );
-	},
-
-	empty: function() {
-		var elem,
-			i = 0;
-
-		for ( ; ( elem = this[ i ] ) != null; i++ ) {
-			if ( elem.nodeType === 1 ) {
-
-				// Prevent memory leaks
-				jQuery.cleanData( getAll( elem, false ) );
-
-				// Remove any remaining nodes
-				elem.textContent = "";
-			}
-		}
-
-		return this;
-	},
-
-	clone: function( dataAndEvents, deepDataAndEvents ) {
-		dataAndEvents = dataAndEvents == null ? false : dataAndEvents;
-		deepDataAndEvents = deepDataAndEvents == null ? dataAndEvents : deepDataAndEvents;
-
-		return this.map( function() {
-			return jQuery.clone( this, dataAndEvents, deepDataAndEvents );
-		} );
-	},
-
-	html: function( value ) {
-		return access( this, function( value ) {
-			var elem = this[ 0 ] || {},
-				i = 0,
-				l = this.length;
-
-			if ( value === undefined && elem.nodeType === 1 ) {
-				return elem.innerHTML;
-			}
-
-			// See if we can take a shortcut and just use innerHTML
-			if ( typeof value === "string" && !rnoInnerhtml.test( value ) &&
-				!wrapMap[ ( rtagName.exec( value ) || [ "", "" ] )[ 1 ].toLowerCase() ] ) {
-
-				value = jQuery.htmlPrefilter( value );
-
-				try {
-					for ( ; i < l; i++ ) {
-						elem = this[ i ] || {};
-
-						// Remove element nodes and prevent memory leaks
-						if ( elem.nodeType === 1 ) {
-							jQuery.cleanData( getAll( elem, false ) );
-							elem.innerHTML = value;
-						}
-					}
-
-					elem = 0;
-
-				// If using innerHTML throws an exception, use the fallback method
-				} catch ( e ) {}
-			}
-
-			if ( elem ) {
-				this.empty().append( value );
-			}
-		}, null, value, arguments.length );
-	},
-
-	replaceWith: function() {
-		var ignored = [];
-
-		// Make the changes, replacing each non-ignored context element with the new content
-		return domManip( this, arguments, function( elem ) {
-			var parent = this.parentNode;
-
-			if ( jQuery.inArray( this, ignored ) < 0 ) {
-				jQuery.cleanData( getAll( this ) );
-				if ( parent ) {
-					parent.replaceChild( elem, this );
-				}
-			}
-
-		// Force callback invocation
-		}, ignored );
-	}
-} );
-
-jQuery.each( {
-	appendTo: "append",
-	prependTo: "prepend",
-	insertBefore: "before",
-	insertAfter: "after",
-	replaceAll: "replaceWith"
-}, function( name, original ) {
-	jQuery.fn[ name ] = function( selector ) {
-		var elems,
-			ret = [],
-			insert = jQuery( selector ),
-			last = insert.length - 1,
-			i = 0;
-
-		for ( ; i <= last; i++ ) {
-			elems = i === last ? this : this.clone( true );
-			jQuery( insert[ i ] )[ original ]( elems );
-
-			// Support: Android <=4.0 only, PhantomJS 1 only
-			// .get() because push.apply(_, arraylike) throws on ancient WebKit
-			push.apply( ret, elems.get() );
-		}
-
-		return this.pushStack( ret );
-	};
-} );
-var rnumnonpx = new RegExp( "^(" + pnum + ")(?!px)[a-z%]+$", "i" );
-
-var getStyles = function( elem ) {
-
-		// Support: IE <=11 only, Firefox <=30 (#15098, #14150)
-		// IE throws on elements created in popups
-		// FF meanwhile throws on frame elements through "defaultView.getComputedStyle"
-		var view = elem.ownerDocument.defaultView;
-
-		if ( !view || !view.opener ) {
-			view = window;
-		}
-
-		return view.getComputedStyle( elem );
-	};
-
-var swap = function( elem, options, callback ) {
-	var ret, name,
-		old = {};
-
-	// Remember the old values, and insert the new ones
-	for ( name in options ) {
-		old[ name ] = elem.style[ name ];
-		elem.style[ name ] = options[ name ];
-	}
-
-	ret = callback.call( elem );
-
-	// Revert the old values
-	for ( name in options ) {
-		elem.style[ name ] = old[ name ];
-	}
-
-	return ret;
-};
-
-
-var rboxStyle = new RegExp( cssExpand.join( "|" ), "i" );
-
-
-
-( function() {
-
-	// Executing both pixelPosition & boxSizingReliable tests require only one layout
-	// so they're executed at the same time to save the second computation.
-	function computeStyleTests() {
-
-		// This is a singleton, we need to execute it only once
-		if ( !div ) {
-			return;
-		}
-
-		container.style.cssText = "position:absolute;left:-11111px;width:60px;" +
-			"margin-top:1px;padding:0;border:0";
-		div.style.cssText =
-			"position:relative;display:block;box-sizing:border-box;overflow:scroll;" +
-			"margin:auto;border:1px;padding:1px;" +
-			"width:60%;top:1%";
-		documentElement.appendChild( container ).appendChild( div );
-
-		var divStyle = window.getComputedStyle( div );
-		pixelPositionVal = divStyle.top !== "1%";
-
-		// Support: Android 4.0 - 4.3 only, Firefox <=3 - 44
-		reliableMarginLeftVal = roundPixelMeasures( divStyle.marginLeft ) === 12;
-
-		// Support: Android 4.0 - 4.3 only, Safari <=9.1 - 10.1, iOS <=7.0 - 9.3
-		// Some styles come back with percentage values, even though they shouldn't
-		div.style.right = "60%";
-		pixelBoxStylesVal = roundPixelMeasures( divStyle.right ) === 36;
-
-		// Support: IE 9 - 11 only
-		// Detect misreporting of content dimensions for box-sizing:border-box elements
-		boxSizingReliableVal = roundPixelMeasures( divStyle.width ) === 36;
-
-		// Support: IE 9 only
-		// Detect overflow:scroll screwiness (gh-3699)
-		// Support: Chrome <=64
-		// Don't get tricked when zoom affects offsetWidth (gh-4029)
-		div.style.position = "absolute";
-		scrollboxSizeVal = roundPixelMeasures( div.offsetWidth / 3 ) === 12;
-
-		documentElement.removeChild( container );
-
-		// Nullify the div so it wouldn't be stored in the memory and
-		// it will also be a sign that checks already performed
-		div = null;
-	}
-
-	function roundPixelMeasures( measure ) {
-		return Math.round( parseFloat( measure ) );
-	}
-
-	var pixelPositionVal, boxSizingReliableVal, scrollboxSizeVal, pixelBoxStylesVal,
-		reliableTrDimensionsVal, reliableMarginLeftVal,
-		container = document.createElement( "div" ),
-		div = document.createElement( "div" );
-
-	// Finish early in limited (non-browser) environments
-	if ( !div.style ) {
-		return;
-	}
-
-	// Support: IE <=9 - 11 only
-	// Style of cloned element affects source element cloned (#8908)
-	div.style.backgroundClip = "content-box";
-	div.cloneNode( true ).style.backgroundClip = "";
-	support.clearCloneStyle = div.style.backgroundClip === "content-box";
-
-	jQuery.extend( support, {
-		boxSizingReliable: function() {
-			computeStyleTests();
-			return boxSizingReliableVal;
-		},
-		pixelBoxStyles: function() {
-			computeStyleTests();
-			return pixelBoxStylesVal;
-		},
-		pixelPosition: function() {
-			computeStyleTests();
-			return pixelPositionVal;
-		},
-		reliableMarginLeft: function() {
-			computeStyleTests();
-			return reliableMarginLeftVal;
-		},
-		scrollboxSize: function() {
-			computeStyleTests();
-			return scrollboxSizeVal;
-		},
-
-		// Support: IE 9 - 11+, Edge 15 - 18+
-		// IE/Edge misreport `getComputedStyle` of table rows with width/height
-		// set in CSS while `offset*` properties report correct values.
-		// Behavior in IE 9 is more subtle than in newer versions & it passes
-		// some versions of this test; make sure not to make it pass there!
-		reliableTrDimensions: function() {
-			var table, tr, trChild, trStyle;
-			if ( reliableTrDimensionsVal == null ) {
-				table = document.createElement( "table" );
-				tr = document.createElement( "tr" );
-				trChild = document.createElement( "div" );
-
-				table.style.cssText = "position:absolute;left:-11111px";
-				tr.style.height = "1px";
-				trChild.style.height = "9px";
-
-				documentElement
-					.appendChild( table )
-					.appendChild( tr )
-					.appendChild( trChild );
-
-				trStyle = window.getComputedStyle( tr );
-				reliableTrDimensionsVal = parseInt( trStyle.height ) > 3;
-
-				documentElement.removeChild( table );
-			}
-			return reliableTrDimensionsVal;
-		}
-	} );
-} )();
-
-
-function curCSS( elem, name, computed ) {
-	var width, minWidth, maxWidth, ret,
-
-		// Support: Firefox 51+
-		// Retrieving style before computed somehow
-		// fixes an issue with getting wrong values
-		// on detached elements
-		style = elem.style;
-
-	computed = computed || getStyles( elem );
-
-	// getPropertyValue is needed for:
-	//   .css('filter') (IE 9 only, #12537)
-	//   .css('--customProperty) (#3144)
-	if ( computed ) {
-		ret = computed.getPropertyValue( name ) || computed[ name ];
-
-		if ( ret === "" && !isAttached( elem ) ) {
-			ret = jQuery.style( elem, name );
-		}
-
-		// A tribute to the "awesome hack by Dean Edwards"
-		// Android Browser returns percentage for some values,
-		// but width seems to be reliably pixels.
-		// This is against the CSSOM draft spec:
-		// https://drafts.csswg.org/cssom/#resolved-values
-		if ( !support.pixelBoxStyles() && rnumnonpx.test( ret ) && rboxStyle.test( name ) ) {
-
-			// Remember the original values
-			width = style.width;
-			minWidth = style.minWidth;
-			maxWidth = style.maxWidth;
-
-			// Put in the new values to get a computed value out
-			style.minWidth = style.maxWidth = style.width = ret;
-			ret = computed.width;
-
-			// Revert the changed values
-			style.width = width;
-			style.minWidth = minWidth;
-			style.maxWidth = maxWidth;
-		}
-	}
-
-	return ret !== undefined ?
-
-		// Support: IE <=9 - 11 only
-		// IE returns zIndex value as an integer.
-		ret + "" :
-		ret;
-}
-
-
-function addGetHookIf( conditionFn, hookFn ) {
-
-	// Define the hook, we'll check on the first run if it's really needed.
-	return {
-		get: function() {
-			if ( conditionFn() ) {
-
-				// Hook not needed (or it's not possible to use it due
-				// to missing dependency), remove it.
-				delete this.get;
-				return;
-			}
-
-			// Hook needed; redefine it so that the support test is not executed again.
-			return ( this.get = hookFn ).apply( this, arguments );
-		}
-	};
-}
-
-
-var cssPrefixes = [ "Webkit", "Moz", "ms" ],
-	emptyStyle = document.createElement( "div" ).style,
-	vendorProps = {};
-
-// Return a vendor-prefixed property or undefined
-function vendorPropName( name ) {
-
-	// Check for vendor prefixed names
-	var capName = name[ 0 ].toUpperCase() + name.slice( 1 ),
-		i = cssPrefixes.length;
-
-	while ( i-- ) {
-		name = cssPrefixes[ i ] + capName;
-		if ( name in emptyStyle ) {
-			return name;
-		}
-	}
-}
-
-// Return a potentially-mapped jQuery.cssProps or vendor prefixed property
-function finalPropName( name ) {
-	var final = jQuery.cssProps[ name ] || vendorProps[ name ];
-
-	if ( final ) {
-		return final;
-	}
-	if ( name in emptyStyle ) {
-		return name;
-	}
-	return vendorProps[ name ] = vendorPropName( name ) || name;
-}
-
-
-var
-
-	// Swappable if display is none or starts with table
-	// except "table", "table-cell", or "table-caption"
-	// See here for display values: https://developer.mozilla.org/en-US/docs/CSS/display
-	rdisplayswap = /^(none|table(?!-c[ea]).+)/,
-	rcustomProp = /^--/,
-	cssShow = { position: "absolute", visibility: "hidden", display: "block" },
-	cssNormalTransform = {
-		letterSpacing: "0",
-		fontWeight: "400"
-	};
-
-function setPositiveNumber( _elem, value, subtract ) {
-
-	// Any relative (+/-) values have already been
-	// normalized at this point
-	var matches = rcssNum.exec( value );
-	return matches ?
-
-		// Guard against undefined "subtract", e.g., when used as in cssHooks
-		Math.max( 0, matches[ 2 ] - ( subtract || 0 ) ) + ( matches[ 3 ] || "px" ) :
-		value;
-}
-
-function boxModelAdjustment( elem, dimension, box, isBorderBox, styles, computedVal ) {
-	var i = dimension === "width" ? 1 : 0,
-		extra = 0,
-		delta = 0;
-
-	// Adjustment may not be necessary
-	if ( box === ( isBorderBox ? "border" : "content" ) ) {
-		return 0;
-	}
-
-	for ( ; i < 4; i += 2 ) {
-
-		// Both box models exclude margin
-		if ( box === "margin" ) {
-			delta += jQuery.css( elem, box + cssExpand[ i ], true, styles );
-		}
-
-		// If we get here with a content-box, we're seeking "padding" or "border" or "margin"
-		if ( !isBorderBox ) {
-
-			// Add padding
-			delta += jQuery.css( elem, "padding" + cssExpand[ i ], true, styles );
-
-			// For "border" or "margin", add border
-			if ( box !== "padding" ) {
-				delta += jQuery.css( elem, "border" + cssExpand[ i ] + "Width", true, styles );
-
-			// But still keep track of it otherwise
-			} else {
-				extra += jQuery.css( elem, "border" + cssExpand[ i ] + "Width", true, styles );
-			}
-
-		// If we get here with a border-box (content + padding + border), we're seeking "content" or
-		// "padding" or "margin"
-		} else {
-
-			// For "content", subtract padding
-			if ( box === "content" ) {
-				delta -= jQuery.css( elem, "padding" + cssExpand[ i ], true, styles );
-			}
-
-			// For "content" or "padding", subtract border
-			if ( box !== "margin" ) {
-				delta -= jQuery.css( elem, "border" + cssExpand[ i ] + "Width", true, styles );
-			}
-		}
-	}
-
-	// Account for positive content-box scroll gutter when requested by providing computedVal
-	if ( !isBorderBox && computedVal >= 0 ) {
-
-		// offsetWidth/offsetHeight is a rounded sum of content, padding, scroll gutter, and border
-		// Assuming integer scroll gutter, subtract the rest and round down
-		delta += Math.max( 0, Math.ceil(
-			elem[ "offset" + dimension[ 0 ].toUpperCase() + dimension.slice( 1 ) ] -
-			computedVal -
-			delta -
-			extra -
-			0.5
-
-		// If offsetWidth/offsetHeight is unknown, then we can't determine content-box scroll gutter
-		// Use an explicit zero to avoid NaN (gh-3964)
-		) ) || 0;
-	}
-
-	return delta;
-}
-
-function getWidthOrHeight( elem, dimension, extra ) {
-
-	// Start with computed style
-	var styles = getStyles( elem ),
-
-		// To avoid forcing a reflow, only fetch boxSizing if we need it (gh-4322).
-		// Fake content-box until we know it's needed to know the true value.
-		boxSizingNeeded = !support.boxSizingReliable() || extra,
-		isBorderBox = boxSizingNeeded &&
-			jQuery.css( elem, "boxSizing", false, styles ) === "border-box",
-		valueIsBorderBox = isBorderBox,
-
-		val = curCSS( elem, dimension, styles ),
-		offsetProp = "offset" + dimension[ 0 ].toUpperCase() + dimension.slice( 1 );
-
-	// Support: Firefox <=54
-	// Return a confounding non-pixel value or feign ignorance, as appropriate.
-	if ( rnumnonpx.test( val ) ) {
-		if ( !extra ) {
-			return val;
-		}
-		val = "auto";
-	}
-
-
-	// Support: IE 9 - 11 only
-	// Use offsetWidth/offsetHeight for when box sizing is unreliable.
-	// In those cases, the computed value can be trusted to be border-box.
-	if ( ( !support.boxSizingReliable() && isBorderBox ||
-
-		// Support: IE 10 - 11+, Edge 15 - 18+
-		// IE/Edge misreport `getComputedStyle` of table rows with width/height
-		// set in CSS while `offset*` properties report correct values.
-		// Interestingly, in some cases IE 9 doesn't suffer from this issue.
-		!support.reliableTrDimensions() && nodeName( elem, "tr" ) ||
-
-		// Fall back to offsetWidth/offsetHeight when value is "auto"
-		// This happens for inline elements with no explicit setting (gh-3571)
-		val === "auto" ||
-
-		// Support: Android <=4.1 - 4.3 only
-		// Also use offsetWidth/offsetHeight for misreported inline dimensions (gh-3602)
-		!parseFloat( val ) && jQuery.css( elem, "display", false, styles ) === "inline" ) &&
-
-		// Make sure the element is visible & connected
-		elem.getClientRects().length ) {
-
-		isBorderBox = jQuery.css( elem, "boxSizing", false, styles ) === "border-box";
-
-		// Where available, offsetWidth/offsetHeight approximate border box dimensions.
-		// Where not available (e.g., SVG), assume unreliable box-sizing and interpret the
-		// retrieved value as a content box dimension.
-		valueIsBorderBox = offsetProp in elem;
-		if ( valueIsBorderBox ) {
-			val = elem[ offsetProp ];
-		}
-	}
-
-	// Normalize "" and auto
-	val = parseFloat( val ) || 0;
-
-	// Adjust for the element's box model
-	return ( val +
-		boxModelAdjustment(
-			elem,
-			dimension,
-			extra || ( isBorderBox ? "border" : "content" ),
-			valueIsBorderBox,
-			styles,
-
-			// Provide the current computed size to request scroll gutter calculation (gh-3589)
-			val
-		)
-	) + "px";
-}
-
-jQuery.extend( {
-
-	// Add in style property hooks for overriding the default
-	// behavior of getting and setting a style property
-	cssHooks: {
-		opacity: {
-			get: function( elem, computed ) {
-				if ( computed ) {
-
-					// We should always get a number back from opacity
-					var ret = curCSS( elem, "opacity" );
-					return ret === "" ? "1" : ret;
-				}
-			}
-		}
-	},
-
-	// Don't automatically add "px" to these possibly-unitless properties
-	cssNumber: {
-		"animationIterationCount": true,
-		"columnCount": true,
-		"fillOpacity": true,
-		"flexGrow": true,
-		"flexShrink": true,
-		"fontWeight": true,
-		"gridArea": true,
-		"gridColumn": true,
-		"gridColumnEnd": true,
-		"gridColumnStart": true,
-		"gridRow": true,
-		"gridRowEnd": true,
-		"gridRowStart": true,
-		"lineHeight": true,
-		"opacity": true,
-		"order": true,
-		"orphans": true,
-		"widows": true,
-		"zIndex": true,
-		"zoom": true
-	},
-
-	// Add in properties whose names you wish to fix before
-	// setting or getting the value
-	cssProps: {},
-
-	// Get and set the style property on a DOM Node
-	style: function( elem, name, value, extra ) {
-
-		// Don't set styles on text and comment nodes
-		if ( !elem || elem.nodeType === 3 || elem.nodeType === 8 || !elem.style ) {
-			return;
-		}
-
-		// Make sure that we're working with the right name
-		var ret, type, hooks,
-			origName = camelCase( name ),
-			isCustomProp = rcustomProp.test( name ),
-			style = elem.style;
-
-		// Make sure that we're working with the right name. We don't
-		// want to query the value if it is a CSS custom property
-		// since they are user-defined.
-		if ( !isCustomProp ) {
-			name = finalPropName( origName );
-		}
-
-		// Gets hook for the prefixed version, then unprefixed version
-		hooks = jQuery.cssHooks[ name ] || jQuery.cssHooks[ origName ];
-
-		// Check if we're setting a value
-		if ( value !== undefined ) {
-			type = typeof value;
-
-			// Convert "+=" or "-=" to relative numbers (#7345)
-			if ( type === "string" && ( ret = rcssNum.exec( value ) ) && ret[ 1 ] ) {
-				value = adjustCSS( elem, name, ret );
-
-				// Fixes bug #9237
-				type = "number";
-			}
-
-			// Make sure that null and NaN values aren't set (#7116)
-			if ( value == null || value !== value ) {
-				return;
-			}
-
-			// If a number was passed in, add the unit (except for certain CSS properties)
-			// The isCustomProp check can be removed in jQuery 4.0 when we only auto-append
-			// "px" to a few hardcoded values.
-			if ( type === "number" && !isCustomProp ) {
-				value += ret && ret[ 3 ] || ( jQuery.cssNumber[ origName ] ? "" : "px" );
-			}
-
-			// background-* props affect original clone's values
-			if ( !support.clearCloneStyle && value === "" && name.indexOf( "background" ) === 0 ) {
-				style[ name ] = "inherit";
-			}
-
-			// If a hook was provided, use that value, otherwise just set the specified value
-			if ( !hooks || !( "set" in hooks ) ||
-				( value = hooks.set( elem, value, extra ) ) !== undefined ) {
-
-				if ( isCustomProp ) {
-					style.setProperty( name, value );
-				} else {
-					style[ name ] = value;
-				}
-			}
-
-		} else {
-
-			// If a hook was provided get the non-computed value from there
-			if ( hooks && "get" in hooks &&
-				( ret = hooks.get( elem, false, extra ) ) !== undefined ) {
-
-				return ret;
-			}
-
-			// Otherwise just get the value from the style object
-			return style[ name ];
-		}
-	},
-
-	css: function( elem, name, extra, styles ) {
-		var val, num, hooks,
-			origName = camelCase( name ),
-			isCustomProp = rcustomProp.test( name );
-
-		// Make sure that we're working with the right name. We don't
-		// want to modify the value if it is a CSS custom property
-		// since they are user-defined.
-		if ( !isCustomProp ) {
-			name = finalPropName( origName );
-		}
-
-		// Try prefixed name followed by the unprefixed name
-		hooks = jQuery.cssHooks[ name ] || jQuery.cssHooks[ origName ];
-
-		// If a hook was provided get the computed value from there
-		if ( hooks && "get" in hooks ) {
-			val = hooks.get( elem, true, extra );
-		}
-
-		// Otherwise, if a way to get the computed value exists, use that
-		if ( val === undefined ) {
-			val = curCSS( elem, name, styles );
-		}
-
-		// Convert "normal" to computed value
-		if ( val === "normal" && name in cssNormalTransform ) {
-			val = cssNormalTransform[ name ];
-		}
-
-		// Make numeric if forced or a qualifier was provided and val looks numeric
-		if ( extra === "" || extra ) {
-			num = parseFloat( val );
-			return extra === true || isFinite( num ) ? num || 0 : val;
-		}
-
-		return val;
-	}
-} );
-
-jQuery.each( [ "height", "width" ], function( _i, dimension ) {
-	jQuery.cssHooks[ dimension ] = {
-		get: function( elem, computed, extra ) {
-			if ( computed ) {
-
-				// Certain elements can have dimension info if we invisibly show them
-				// but it must have a current display style that would benefit
-				return rdisplayswap.test( jQuery.css( elem, "display" ) ) &&
-
-					// Support: Safari 8+
-					// Table columns in Safari have non-zero offsetWidth & zero
-					// getBoundingClientRect().width unless display is changed.
-					// Support: IE <=11 only
-					// Running getBoundingClientRect on a disconnected node
-					// in IE throws an error.
-					( !elem.getClientRects().length || !elem.getBoundingClientRect().width ) ?
-						swap( elem, cssShow, function() {
-							return getWidthOrHeight( elem, dimension, extra );
-						} ) :
-						getWidthOrHeight( elem, dimension, extra );
-			}
-		},
-
-		set: function( elem, value, extra ) {
-			var matches,
-				styles = getStyles( elem ),
-
-				// Only read styles.position if the test has a chance to fail
-				// to avoid forcing a reflow.
-				scrollboxSizeBuggy = !support.scrollboxSize() &&
-					styles.position === "absolute",
-
-				// To avoid forcing a reflow, only fetch boxSizing if we need it (gh-3991)
-				boxSizingNeeded = scrollboxSizeBuggy || extra,
-				isBorderBox = boxSizingNeeded &&
-					jQuery.css( elem, "boxSizing", false, styles ) === "border-box",
-				subtract = extra ?
-					boxModelAdjustment(
-						elem,
-						dimension,
-						extra,
-						isBorderBox,
-						styles
-					) :
-					0;
-
-			// Account for unreliable border-box dimensions by comparing offset* to computed and
-			// faking a content-box to get border and padding (gh-3699)
-			if ( isBorderBox && scrollboxSizeBuggy ) {
-				subtract -= Math.ceil(
-					elem[ "offset" + dimension[ 0 ].toUpperCase() + dimension.slice( 1 ) ] -
-					parseFloat( styles[ dimension ] ) -
-					boxModelAdjustment( elem, dimension, "border", false, styles ) -
-					0.5
-				);
-			}
-
-			// Convert to pixels if value adjustment is needed
-			if ( subtract && ( matches = rcssNum.exec( value ) ) &&
-				( matches[ 3 ] || "px" ) !== "px" ) {
-
-				elem.style[ dimension ] = value;
-				value = jQuery.css( elem, dimension );
-			}
-
-			return setPositiveNumber( elem, value, subtract );
-		}
-	};
-} );
-
-jQuery.cssHooks.marginLeft = addGetHookIf( support.reliableMarginLeft,
-	function( elem, computed ) {
-		if ( computed ) {
-			return ( parseFloat( curCSS( elem, "marginLeft" ) ) ||
-				elem.getBoundingClientRect().left -
-					swap( elem, { marginLeft: 0 }, function() {
-						return elem.getBoundingClientRect().left;
-					} )
-				) + "px";
-		}
-	}
-);
-
-// These hooks are used by animate to expand properties
-jQuery.each( {
-	margin: "",
-	padding: "",
-	border: "Width"
-}, function( prefix, suffix ) {
-	jQuery.cssHooks[ prefix + suffix ] = {
-		expand: function( value ) {
-			var i = 0,
-				expanded = {},
-
-				// Assumes a single number if not a string
-				parts = typeof value === "string" ? value.split( " " ) : [ value ];
-
-			for ( ; i < 4; i++ ) {
-				expanded[ prefix + cssExpand[ i ] + suffix ] =
-					parts[ i ] || parts[ i - 2 ] || parts[ 0 ];
-			}
-
-			return expanded;
-		}
-	};
-
-	if ( prefix !== "margin" ) {
-		jQuery.cssHooks[ prefix + suffix ].set = setPositiveNumber;
-	}
-} );
-
-jQuery.fn.extend( {
-	css: function( name, value ) {
-		return access( this, function( elem, name, value ) {
-			var styles, len,
-				map = {},
-				i = 0;
-
-			if ( Array.isArray( name ) ) {
-				styles = getStyles( elem );
-				len = name.length;
-
-				for ( ; i < len; i++ ) {
-					map[ name[ i ] ] = jQuery.css( elem, name[ i ], false, styles );
-				}
-
-				return map;
-			}
-
-			return value !== undefined ?
-				jQuery.style( elem, name, value ) :
-				jQuery.css( elem, name );
-		}, name, value, arguments.length > 1 );
-	}
-} );
-
-
-function Tween( elem, options, prop, end, easing ) {
-	return new Tween.prototype.init( elem, options, prop, end, easing );
-}
-jQuery.Tween = Tween;
-
-Tween.prototype = {
-	constructor: Tween,
-	init: function( elem, options, prop, end, easing, unit ) {
-		this.elem = elem;
-		this.prop = prop;
-		this.easing = easing || jQuery.easing._default;
-		this.options = options;
-		this.start = this.now = this.cur();
-		this.end = end;
-		this.unit = unit || ( jQuery.cssNumber[ prop ] ? "" : "px" );
-	},
-	cur: function() {
-		var hooks = Tween.propHooks[ this.prop ];
-
-		return hooks && hooks.get ?
-			hooks.get( this ) :
-			Tween.propHooks._default.get( this );
-	},
-	run: function( percent ) {
-		var eased,
-			hooks = Tween.propHooks[ this.prop ];
-
-		if ( this.options.duration ) {
-			this.pos = eased = jQuery.easing[ this.easing ](
-				percent, this.options.duration * percent, 0, 1, this.options.duration
-			);
-		} else {
-			this.pos = eased = percent;
-		}
-		this.now = ( this.end - this.start ) * eased + this.start;
-
-		if ( this.options.step ) {
-			this.options.step.call( this.elem, this.now, this );
-		}
-
-		if ( hooks && hooks.set ) {
-			hooks.set( this );
-		} else {
-			Tween.propHooks._default.set( this );
-		}
-		return this;
-	}
-};
-
-Tween.prototype.init.prototype = Tween.prototype;
-
-Tween.propHooks = {
-	_default: {
-		get: function( tween ) {
-			var result;
-
-			// Use a property on the element directly when it is not a DOM element,
-			// or when there is no matching style property that exists.
-			if ( tween.elem.nodeType !== 1 ||
-				tween.elem[ tween.prop ] != null && tween.elem.style[ tween.prop ] == null ) {
-				return tween.elem[ tween.prop ];
-			}
-
-			// Passing an empty string as a 3rd parameter to .css will automatically
-			// attempt a parseFloat and fallback to a string if the parse fails.
-			// Simple values such as "10px" are parsed to Float;
-			// complex values such as "rotate(1rad)" are returned as-is.
-			result = jQuery.css( tween.elem, tween.prop, "" );
-
-			// Empty strings, null, undefined and "auto" are converted to 0.
-			return !result || result === "auto" ? 0 : result;
-		},
-		set: function( tween ) {
-
-			// Use step hook for back compat.
-			// Use cssHook if its there.
-			// Use .style if available and use plain properties where available.
-			if ( jQuery.fx.step[ tween.prop ] ) {
-				jQuery.fx.step[ tween.prop ]( tween );
-			} else if ( tween.elem.nodeType === 1 && (
-					jQuery.cssHooks[ tween.prop ] ||
-					tween.elem.style[ finalPropName( tween.prop ) ] != null ) ) {
-				jQuery.style( tween.elem, tween.prop, tween.now + tween.unit );
-			} else {
-				tween.elem[ tween.prop ] = tween.now;
-			}
-		}
-	}
-};
-
-// Support: IE <=9 only
-// Panic based approach to setting things on disconnected nodes
-Tween.propHooks.scrollTop = Tween.propHooks.scrollLeft = {
-	set: function( tween ) {
-		if ( tween.elem.nodeType && tween.elem.parentNode ) {
-			tween.elem[ tween.prop ] = tween.now;
-		}
-	}
-};
-
-jQuery.easing = {
-	linear: function( p ) {
-		return p;
-	},
-	swing: function( p ) {
-		return 0.5 - Math.cos( p * Math.PI ) / 2;
-	},
-	_default: "swing"
-};
-
-jQuery.fx = Tween.prototype.init;
-
-// Back compat <1.8 extension point
-jQuery.fx.step = {};
-
-
-
-
-var
-	fxNow, inProgress,
-	rfxtypes = /^(?:toggle|show|hide)$/,
-	rrun = /queueHooks$/;
-
-function schedule() {
-	if ( inProgress ) {
-		if ( document.hidden === false && window.requestAnimationFrame ) {
-			window.requestAnimationFrame( schedule );
-		} else {
-			window.setTimeout( schedule, jQuery.fx.interval );
-		}
-
-		jQuery.fx.tick();
-	}
-}
-
-// Animations created synchronously will run synchronously
-function createFxNow() {
-	window.setTimeout( function() {
-		fxNow = undefined;
-	} );
-	return ( fxNow = Date.now() );
-}
-
-// Generate parameters to create a standard animation
-function genFx( type, includeWidth ) {
-	var which,
-		i = 0,
-		attrs = { height: type };
-
-	// If we include width, step value is 1 to do all cssExpand values,
-	// otherwise step value is 2 to skip over Left and Right
-	includeWidth = includeWidth ? 1 : 0;
-	for ( ; i < 4; i += 2 - includeWidth ) {
-		which = cssExpand[ i ];
-		attrs[ "margin" + which ] = attrs[ "padding" + which ] = type;
-	}
-
-	if ( includeWidth ) {
-		attrs.opacity = attrs.width = type;
-	}
-
-	return attrs;
-}
-
-function createTween( value, prop, animation ) {
-	var tween,
-		collection = ( Animation.tweeners[ prop ] || [] ).concat( Animation.tweeners[ "*" ] ),
-		index = 0,
-		length = collection.length;
-	for ( ; index < length; index++ ) {
-		if ( ( tween = collection[ index ].call( animation, prop, value ) ) ) {
-
-			// We're done with this property
-			return tween;
-		}
-	}
-}
-
-function defaultPrefilter( elem, props, opts ) {
-	var prop, value, toggle, hooks, oldfire, propTween, restoreDisplay, display,
-		isBox = "width" in props || "height" in props,
-		anim = this,
-		orig = {},
-		style = elem.style,
-		hidden = elem.nodeType && isHiddenWithinTree( elem ),
-		dataShow = dataPriv.get( elem, "fxshow" );
-
-	// Queue-skipping animations hijack the fx hooks
-	if ( !opts.queue ) {
-		hooks = jQuery._queueHooks( elem, "fx" );
-		if ( hooks.unqueued == null ) {
-			hooks.unqueued = 0;
-			oldfire = hooks.empty.fire;
-			hooks.empty.fire = function() {
-				if ( !hooks.unqueued ) {
-					oldfire();
-				}
-			};
-		}
-		hooks.unqueued++;
-
-		anim.always( function() {
-
-			// Ensure the complete handler is called before this completes
-			anim.always( function() {
-				hooks.unqueued--;
-				if ( !jQuery.queue( elem, "fx" ).length ) {
-					hooks.empty.fire();
-				}
-			} );
-		} );
-	}
-
-	// Detect show/hide animations
-	for ( prop in props ) {
-		value = props[ prop ];
-		if ( rfxtypes.test( value ) ) {
-			delete props[ prop ];
-			toggle = toggle || value === "toggle";
-			if ( value === ( hidden ? "hide" : "show" ) ) {
-
-				// Pretend to be hidden if this is a "show" and
-				// there is still data from a stopped show/hide
-				if ( value === "show" && dataShow && dataShow[ prop ] !== undefined ) {
-					hidden = true;
-
-				// Ignore all other no-op show/hide data
-				} else {
-					continue;
-				}
-			}
-			orig[ prop ] = dataShow && dataShow[ prop ] || jQuery.style( elem, prop );
-		}
-	}
-
-	// Bail out if this is a no-op like .hide().hide()
-	propTween = !jQuery.isEmptyObject( props );
-	if ( !propTween && jQuery.isEmptyObject( orig ) ) {
-		return;
-	}
-
-	// Restrict "overflow" and "display" styles during box animations
-	if ( isBox && elem.nodeType === 1 ) {
-
-		// Support: IE <=9 - 11, Edge 12 - 15
-		// Record all 3 overflow attributes because IE does not infer the shorthand
-		// from identically-valued overflowX and overflowY and Edge just mirrors
-		// the overflowX value there.
-		opts.overflow = [ style.overflow, style.overflowX, style.overflowY ];
-
-		// Identify a display type, preferring old show/hide data over the CSS cascade
-		restoreDisplay = dataShow && dataShow.display;
-		if ( restoreDisplay == null ) {
-			restoreDisplay = dataPriv.get( elem, "display" );
-		}
-		display = jQuery.css( elem, "display" );
-		if ( display === "none" ) {
-			if ( restoreDisplay ) {
-				display = restoreDisplay;
-			} else {
-
-				// Get nonempty value(s) by temporarily forcing visibility
-				showHide( [ elem ], true );
-				restoreDisplay = elem.style.display || restoreDisplay;
-				display = jQuery.css( elem, "display" );
-				showHide( [ elem ] );
-			}
-		}
-
-		// Animate inline elements as inline-block
-		if ( display === "inline" || display === "inline-block" && restoreDisplay != null ) {
-			if ( jQuery.css( elem, "float" ) === "none" ) {
-
-				// Restore the original display value at the end of pure show/hide animations
-				if ( !propTween ) {
-					anim.done( function() {
-						style.display = restoreDisplay;
-					} );
-					if ( restoreDisplay == null ) {
-						display = style.display;
-						restoreDisplay = display === "none" ? "" : display;
-					}
-				}
-				style.display = "inline-block";
-			}
-		}
-	}
-
-	if ( opts.overflow ) {
-		style.overflow = "hidden";
-		anim.always( function() {
-			style.overflow = opts.overflow[ 0 ];
-			style.overflowX = opts.overflow[ 1 ];
-			style.overflowY = opts.overflow[ 2 ];
-		} );
-	}
-
-	// Implement show/hide animations
-	propTween = false;
-	for ( prop in orig ) {
-
-		// General show/hide setup for this element animation
-		if ( !propTween ) {
-			if ( dataShow ) {
-				if ( "hidden" in dataShow ) {
-					hidden = dataShow.hidden;
-				}
-			} else {
-				dataShow = dataPriv.access( elem, "fxshow", { display: restoreDisplay } );
-			}
-
-			// Store hidden/visible for toggle so `.stop().toggle()` "reverses"
-			if ( toggle ) {
-				dataShow.hidden = !hidden;
-			}
-
-			// Show elements before animating them
-			if ( hidden ) {
-				showHide( [ elem ], true );
-			}
-
-			/* eslint-disable no-loop-func */
-
-			anim.done( function() {
-
-			/* eslint-enable no-loop-func */
-
-				// The final step of a "hide" animation is actually hiding the element
-				if ( !hidden ) {
-					showHide( [ elem ] );
-				}
-				dataPriv.remove( elem, "fxshow" );
-				for ( prop in orig ) {
-					jQuery.style( elem, prop, orig[ prop ] );
-				}
-			} );
-		}
-
-		// Per-property setup
-		propTween = createTween( hidden ? dataShow[ prop ] : 0, prop, anim );
-		if ( !( prop in dataShow ) ) {
-			dataShow[ prop ] = propTween.start;
-			if ( hidden ) {
-				propTween.end = propTween.start;
-				propTween.start = 0;
-			}
-		}
-	}
-}
-
-function propFilter( props, specialEasing ) {
-	var index, name, easing, value, hooks;
-
-	// camelCase, specialEasing and expand cssHook pass
-	for ( index in props ) {
-		name = camelCase( index );
-		easing = specialEasing[ name ];
-		value = props[ index ];
-		if ( Array.isArray( value ) ) {
-			easing = value[ 1 ];
-			value = props[ index ] = value[ 0 ];
-		}
-
-		if ( index !== name ) {
-			props[ name ] = value;
-			delete props[ index ];
-		}
-
-		hooks = jQuery.cssHooks[ name ];
-		if ( hooks && "expand" in hooks ) {
-			value = hooks.expand( value );
-			delete props[ name ];
-
-			// Not quite $.extend, this won't overwrite existing keys.
-			// Reusing 'index' because we have the correct "name"
-			for ( index in value ) {
-				if ( !( index in props ) ) {
-					props[ index ] = value[ index ];
-					specialEasing[ index ] = easing;
-				}
-			}
-		} else {
-			specialEasing[ name ] = easing;
-		}
-	}
-}
-
-function Animation( elem, properties, options ) {
-	var result,
-		stopped,
-		index = 0,
-		length = Animation.prefilters.length,
-		deferred = jQuery.Deferred().always( function() {
-
-			// Don't match elem in the :animated selector
-			delete tick.elem;
-		} ),
-		tick = function() {
-			if ( stopped ) {
-				return false;
-			}
-			var currentTime = fxNow || createFxNow(),
-				remaining = Math.max( 0, animation.startTime + animation.duration - currentTime ),
-
-				// Support: Android 2.3 only
-				// Archaic crash bug won't allow us to use `1 - ( 0.5 || 0 )` (#12497)
-				temp = remaining / animation.duration || 0,
-				percent = 1 - temp,
-				index = 0,
-				length = animation.tweens.length;
-
-			for ( ; index < length; index++ ) {
-				animation.tweens[ index ].run( percent );
-			}
-
-			deferred.notifyWith( elem, [ animation, percent, remaining ] );
-
-			// If there's more to do, yield
-			if ( percent < 1 && length ) {
-				return remaining;
-			}
-
-			// If this was an empty animation, synthesize a final progress notification
-			if ( !length ) {
-				deferred.notifyWith( elem, [ animation, 1, 0 ] );
-			}
-
-			// Resolve the animation and report its conclusion
-			deferred.resolveWith( elem, [ animation ] );
-			return false;
-		},
-		animation = deferred.promise( {
-			elem: elem,
-			props: jQuery.extend( {}, properties ),
-			opts: jQuery.extend( true, {
-				specialEasing: {},
-				easing: jQuery.easing._default
-			}, options ),
-			originalProperties: properties,
-			originalOptions: options,
-			startTime: fxNow || createFxNow(),
-			duration: options.duration,
-			tweens: [],
-			createTween: function( prop, end ) {
-				var tween = jQuery.Tween( elem, animation.opts, prop, end,
-						animation.opts.specialEasing[ prop ] || animation.opts.easing );
-				animation.tweens.push( tween );
-				return tween;
-			},
-			stop: function( gotoEnd ) {
-				var index = 0,
-
-					// If we are going to the end, we want to run all the tweens
-					// otherwise we skip this part
-					length = gotoEnd ? animation.tweens.length : 0;
-				if ( stopped ) {
-					return this;
-				}
-				stopped = true;
-				for ( ; index < length; index++ ) {
-					animation.tweens[ index ].run( 1 );
-				}
-
-				// Resolve when we played the last frame; otherwise, reject
-				if ( gotoEnd ) {
-					deferred.notifyWith( elem, [ animation, 1, 0 ] );
-					deferred.resolveWith( elem, [ animation, gotoEnd ] );
-				} else {
-					deferred.rejectWith( elem, [ animation, gotoEnd ] );
-				}
-				return this;
-			}
-		} ),
-		props = animation.props;
-
-	propFilter( props, animation.opts.specialEasing );
-
-	for ( ; index < length; index++ ) {
-		result = Animation.prefilters[ index ].call( animation, elem, props, animation.opts );
-		if ( result ) {
-			if ( isFunction( result.stop ) ) {
-				jQuery._queueHooks( animation.elem, animation.opts.queue ).stop =
-					result.stop.bind( result );
-			}
-			return result;
-		}
-	}
-
-	jQuery.map( props, createTween, animation );
-
-	if ( isFunction( animation.opts.start ) ) {
-		animation.opts.start.call( elem, animation );
-	}
-
-	// Attach callbacks from options
-	animation
-		.progress( animation.opts.progress )
-		.done( animation.opts.done, animation.opts.complete )
-		.fail( animation.opts.fail )
-		.always( animation.opts.always );
-
-	jQuery.fx.timer(
-		jQuery.extend( tick, {
-			elem: elem,
-			anim: animation,
-			queue: animation.opts.queue
-		} )
-	);
-
-	return animation;
-}
-
-jQuery.Animation = jQuery.extend( Animation, {
-
-	tweeners: {
-		"*": [ function( prop, value ) {
-			var tween = this.createTween( prop, value );
-			adjustCSS( tween.elem, prop, rcssNum.exec( value ), tween );
-			return tween;
-		} ]
-	},
-
-	tweener: function( props, callback ) {
-		if ( isFunction( props ) ) {
-			callback = props;
-			props = [ "*" ];
-		} else {
-			props = props.match( rnothtmlwhite );
-		}
-
-		var prop,
-			index = 0,
-			length = props.length;
-
-		for ( ; index < length; index++ ) {
-			prop = props[ index ];
-			Animation.tweeners[ prop ] = Animation.tweeners[ prop ] || [];
-			Animation.tweeners[ prop ].unshift( callback );
-		}
-	},
-
-	prefilters: [ defaultPrefilter ],
-
-	prefilter: function( callback, prepend ) {
-		if ( prepend ) {
-			Animation.prefilters.unshift( callback );
-		} else {
-			Animation.prefilters.push( callback );
-		}
-	}
-} );
-
-jQuery.speed = function( speed, easing, fn ) {
-	var opt = speed && typeof speed === "object" ? jQuery.extend( {}, speed ) : {
-		complete: fn || !fn && easing ||
-			isFunction( speed ) && speed,
-		duration: speed,
-		easing: fn && easing || easing && !isFunction( easing ) && easing
-	};
-
-	// Go to the end state if fx are off
-	if ( jQuery.fx.off ) {
-		opt.duration = 0;
-
-	} else {
-		if ( typeof opt.duration !== "number" ) {
-			if ( opt.duration in jQuery.fx.speeds ) {
-				opt.duration = jQuery.fx.speeds[ opt.duration ];
-
-			} else {
-				opt.duration = jQuery.fx.speeds._default;
-			}
-		}
-	}
-
-	// Normalize opt.queue - true/undefined/null -> "fx"
-	if ( opt.queue == null || opt.queue === true ) {
-		opt.queue = "fx";
-	}
-
-	// Queueing
-	opt.old = opt.complete;
-
-	opt.complete = function() {
-		if ( isFunction( opt.old ) ) {
-			opt.old.call( this );
-		}
-
-		if ( opt.queue ) {
-			jQuery.dequeue( this, opt.queue );
-		}
-	};
-
-	return opt;
-};
-
-jQuery.fn.extend( {
-	fadeTo: function( speed, to, easing, callback ) {
-
-		// Show any hidden elements after setting opacity to 0
-		return this.filter( isHiddenWithinTree ).css( "opacity", 0 ).show()
-
-			// Animate to the value specified
-			.end().animate( { opacity: to }, speed, easing, callback );
-	},
-	animate: function( prop, speed, easing, callback ) {
-		var empty = jQuery.isEmptyObject( prop ),
-			optall = jQuery.speed( speed, easing, callback ),
-			doAnimation = function() {
-
-				// Operate on a copy of prop so per-property easing won't be lost
-				var anim = Animation( this, jQuery.extend( {}, prop ), optall );
-
-				// Empty animations, or finishing resolves immediately
-				if ( empty || dataPriv.get( this, "finish" ) ) {
-					anim.stop( true );
-				}
-			};
-			doAnimation.finish = doAnimation;
-
-		return empty || optall.queue === false ?
-			this.each( doAnimation ) :
-			this.queue( optall.queue, doAnimation );
-	},
-	stop: function( type, clearQueue, gotoEnd ) {
-		var stopQueue = function( hooks ) {
-			var stop = hooks.stop;
-			delete hooks.stop;
-			stop( gotoEnd );
-		};
-
-		if ( typeof type !== "string" ) {
-			gotoEnd = clearQueue;
-			clearQueue = type;
-			type = undefined;
-		}
-		if ( clearQueue ) {
-			this.queue( type || "fx", [] );
-		}
-
-		return this.each( function() {
-			var dequeue = true,
-				index = type != null && type + "queueHooks",
-				timers = jQuery.timers,
-				data = dataPriv.get( this );
-
-			if ( index ) {
-				if ( data[ index ] && data[ index ].stop ) {
-					stopQueue( data[ index ] );
-				}
-			} else {
-				for ( index in data ) {
-					if ( data[ index ] && data[ index ].stop && rrun.test( index ) ) {
-						stopQueue( data[ index ] );
-					}
-				}
-			}
-
-			for ( index = timers.length; index--; ) {
-				if ( timers[ index ].elem === this &&
-					( type == null || timers[ index ].queue === type ) ) {
-
-					timers[ index ].anim.stop( gotoEnd );
-					dequeue = false;
-					timers.splice( index, 1 );
-				}
-			}
-
-			// Start the next in the queue if the last step wasn't forced.
-			// Timers currently will call their complete callbacks, which
-			// will dequeue but only if they were gotoEnd.
-			if ( dequeue || !gotoEnd ) {
-				jQuery.dequeue( this, type );
-			}
-		} );
-	},
-	finish: function( type ) {
-		if ( type !== false ) {
-			type = type || "fx";
-		}
-		return this.each( function() {
-			var index,
-				data = dataPriv.get( this ),
-				queue = data[ type + "queue" ],
-				hooks = data[ type + "queueHooks" ],
-				timers = jQuery.timers,
-				length = queue ? queue.length : 0;
-
-			// Enable finishing flag on private data
-			data.finish = true;
-
-			// Empty the queue first
-			jQuery.queue( this, type, [] );
-
-			if ( hooks && hooks.stop ) {
-				hooks.stop.call( this, true );
-			}
-
-			// Look for any active animations, and finish them
-			for ( index = timers.length; index--; ) {
-				if ( timers[ index ].elem === this && timers[ index ].queue === type ) {
-					timers[ index ].anim.stop( true );
-					timers.splice( index, 1 );
-				}
-			}
-
-			// Look for any animations in the old queue and finish them
-			for ( index = 0; index < length; index++ ) {
-				if ( queue[ index ] && queue[ index ].finish ) {
-					queue[ index ].finish.call( this );
-				}
-			}
-
-			// Turn off finishing flag
-			delete data.finish;
-		} );
-	}
-} );
-
-jQuery.each( [ "toggle", "show", "hide" ], function( _i, name ) {
-	var cssFn = jQuery.fn[ name ];
-	jQuery.fn[ name ] = function( speed, easing, callback ) {
-		return speed == null || typeof speed === "boolean" ?
-			cssFn.apply( this, arguments ) :
-			this.animate( genFx( name, true ), speed, easing, callback );
-	};
-} );
-
-// Generate shortcuts for custom animations
-jQuery.each( {
-	slideDown: genFx( "show" ),
-	slideUp: genFx( "hide" ),
-	slideToggle: genFx( "toggle" ),
-	fadeIn: { opacity: "show" },
-	fadeOut: { opacity: "hide" },
-	fadeToggle: { opacity: "toggle" }
-}, function( name, props ) {
-	jQuery.fn[ name ] = function( speed, easing, callback ) {
-		return this.animate( props, speed, easing, callback );
-	};
-} );
-
-jQuery.timers = [];
-jQuery.fx.tick = function() {
-	var timer,
-		i = 0,
-		timers = jQuery.timers;
-
-	fxNow = Date.now();
-
-	for ( ; i < timers.length; i++ ) {
-		timer = timers[ i ];
-
-		// Run the timer and safely remove it when done (allowing for external removal)
-		if ( !timer() && timers[ i ] === timer ) {
-			timers.splice( i--, 1 );
-		}
-	}
-
-	if ( !timers.length ) {
-		jQuery.fx.stop();
-	}
-	fxNow = undefined;
-};
-
-jQuery.fx.timer = function( timer ) {
-	jQuery.timers.push( timer );
-	jQuery.fx.start();
-};
-
-jQuery.fx.interval = 13;
-jQuery.fx.start = function() {
-	if ( inProgress ) {
-		return;
-	}
-
-	inProgress = true;
-	schedule();
-};
-
-jQuery.fx.stop = function() {
-	inProgress = null;
-};
-
-jQuery.fx.speeds = {
-	slow: 600,
-	fast: 200,
-
-	// Default speed
-	_default: 400
-};
-
-
-// Based off of the plugin by Clint Helfers, with permission.
-// https://web.archive.org/web/20100324014747/http://blindsignals.com/index.php/2009/07/jquery-delay/
-jQuery.fn.delay = function( time, type ) {
-	time = jQuery.fx ? jQuery.fx.speeds[ time ] || time : time;
-	type = type || "fx";
-
-	return this.queue( type, function( next, hooks ) {
-		var timeout = window.setTimeout( next, time );
-		hooks.stop = function() {
-			window.clearTimeout( timeout );
-		};
-	} );
-};
-
-
-( function() {
-	var input = document.createElement( "input" ),
-		select = document.createElement( "select" ),
-		opt = select.appendChild( document.createElement( "option" ) );
-
-	input.type = "checkbox";
-
-	// Support: Android <=4.3 only
-	// Default value for a checkbox should be "on"
-	support.checkOn = input.value !== "";
-
-	// Support: IE <=11 only
-	// Must access selectedIndex to make default options select
-	support.optSelected = opt.selected;
-
-	// Support: IE <=11 only
-	// An input loses its value after becoming a radio
-	input = document.createElement( "input" );
-	input.value = "t";
-	input.type = "radio";
-	support.radioValue = input.value === "t";
-} )();
-
-
-var boolHook,
-	attrHandle = jQuery.expr.attrHandle;
-
-jQuery.fn.extend( {
-	attr: function( name, value ) {
-		return access( this, jQuery.attr, name, value, arguments.length > 1 );
-	},
-
-	removeAttr: function( name ) {
-		return this.each( function() {
-			jQuery.removeAttr( this, name );
-		} );
-	}
-} );
-
-jQuery.extend( {
-	attr: function( elem, name, value ) {
-		var ret, hooks,
-			nType = elem.nodeType;
-
-		// Don't get/set attributes on text, comment and attribute nodes
-		if ( nType === 3 || nType === 8 || nType === 2 ) {
-			return;
-		}
-
-		// Fallback to prop when attributes are not supported
-		if ( typeof elem.getAttribute === "undefined" ) {
-			return jQuery.prop( elem, name, value );
-		}
-
-		// Attribute hooks are determined by the lowercase version
-		// Grab necessary hook if one is defined
-		if ( nType !== 1 || !jQuery.isXMLDoc( elem ) ) {
-			hooks = jQuery.attrHooks[ name.toLowerCase() ] ||
-				( jQuery.expr.match.bool.test( name ) ? boolHook : undefined );
-		}
-
-		if ( value !== undefined ) {
-			if ( value === null ) {
-				jQuery.removeAttr( elem, name );
-				return;
-			}
-
-			if ( hooks && "set" in hooks &&
-				( ret = hooks.set( elem, value, name ) ) !== undefined ) {
-				return ret;
-			}
-
-			elem.setAttribute( name, value + "" );
-			return value;
-		}
-
-		if ( hooks && "get" in hooks && ( ret = hooks.get( elem, name ) ) !== null ) {
-			return ret;
-		}
-
-		ret = jQuery.find.attr( elem, name );
-
-		// Non-existent attributes return null, we normalize to undefined
-		return ret == null ? undefined : ret;
-	},
-
-	attrHooks: {
-		type: {
-			set: function( elem, value ) {
-				if ( !support.radioValue && value === "radio" &&
-					nodeName( elem, "input" ) ) {
-					var val = elem.value;
-					elem.setAttribute( "type", value );
-					if ( val ) {
-						elem.value = val;
-					}
-					return value;
-				}
-			}
-		}
-	},
-
-	removeAttr: function( elem, value ) {
-		var name,
-			i = 0,
-
-			// Attribute names can contain non-HTML whitespace characters
-			// https://html.spec.whatwg.org/multipage/syntax.html#attributes-2
-			attrNames = value && value.match( rnothtmlwhite );
-
-		if ( attrNames && elem.nodeType === 1 ) {
-			while ( ( name = attrNames[ i++ ] ) ) {
-				elem.removeAttribute( name );
-			}
-		}
-	}
-} );
-
-// Hooks for boolean attributes
-boolHook = {
-	set: function( elem, value, name ) {
-		if ( value === false ) {
-
-			// Remove boolean attributes when set to false
-			jQuery.removeAttr( elem, name );
-		} else {
-			elem.setAttribute( name, name );
-		}
-		return name;
-	}
-};
-
-jQuery.each( jQuery.expr.match.bool.source.match( /\w+/g ), function( _i, name ) {
-	var getter = attrHandle[ name ] || jQuery.find.attr;
-
-	attrHandle[ name ] = function( elem, name, isXML ) {
-		var ret, handle,
-			lowercaseName = name.toLowerCase();
-
-		if ( !isXML ) {
-
-			// Avoid an infinite loop by temporarily removing this function from the getter
-			handle = attrHandle[ lowercaseName ];
-			attrHandle[ lowercaseName ] = ret;
-			ret = getter( elem, name, isXML ) != null ?
-				lowercaseName :
-				null;
-			attrHandle[ lowercaseName ] = handle;
-		}
-		return ret;
-	};
-} );
-
-
-
-
-var rfocusable = /^(?:input|select|textarea|button)$/i,
-	rclickable = /^(?:a|area)$/i;
-
-jQuery.fn.extend( {
-	prop: function( name, value ) {
-		return access( this, jQuery.prop, name, value, arguments.length > 1 );
-	},
-
-	removeProp: function( name ) {
-		return this.each( function() {
-			delete this[ jQuery.propFix[ name ] || name ];
-		} );
-	}
-} );
-
-jQuery.extend( {
-	prop: function( elem, name, value ) {
-		var ret, hooks,
-			nType = elem.nodeType;
-
-		// Don't get/set properties on text, comment and attribute nodes
-		if ( nType === 3 || nType === 8 || nType === 2 ) {
-			return;
-		}
-
-		if ( nType !== 1 || !jQuery.isXMLDoc( elem ) ) {
-
-			// Fix name and attach hooks
-			name = jQuery.propFix[ name ] || name;
-			hooks = jQuery.propHooks[ name ];
-		}
-
-		if ( value !== undefined ) {
-			if ( hooks && "set" in hooks &&
-				( ret = hooks.set( elem, value, name ) ) !== undefined ) {
-				return ret;
-			}
-
-			return ( elem[ name ] = value );
-		}
-
-		if ( hooks && "get" in hooks && ( ret = hooks.get( elem, name ) ) !== null ) {
-			return ret;
-		}
-
-		return elem[ name ];
-	},
-
-	propHooks: {
-		tabIndex: {
-			get: function( elem ) {
-
-				// Support: IE <=9 - 11 only
-				// elem.tabIndex doesn't always return the
-				// correct value when it hasn't been explicitly set
-				// https://web.archive.org/web/20141116233347/http://fluidproject.org/blog/2008/01/09/getting-setting-and-removing-tabindex-values-with-javascript/
-				// Use proper attribute retrieval(#12072)
-				var tabindex = jQuery.find.attr( elem, "tabindex" );
-
-				if ( tabindex ) {
-					return parseInt( tabindex, 10 );
-				}
-
-				if (
-					rfocusable.test( elem.nodeName ) ||
-					rclickable.test( elem.nodeName ) &&
-					elem.href
-				) {
-					return 0;
-				}
-
-				return -1;
-			}
-		}
-	},
-
-	propFix: {
-		"for": "htmlFor",
-		"class": "className"
-	}
-} );
-
-// Support: IE <=11 only
-// Accessing the selectedIndex property
-// forces the browser to respect setting selected
-// on the option
-// The getter ensures a default option is selected
-// when in an optgroup
-// eslint rule "no-unused-expressions" is disabled for this code
-// since it considers such accessions noop
-if ( !support.optSelected ) {
-	jQuery.propHooks.selected = {
-		get: function( elem ) {
-
-			/* eslint no-unused-expressions: "off" */
-
-			var parent = elem.parentNode;
-			if ( parent && parent.parentNode ) {
-				parent.parentNode.selectedIndex;
-			}
-			return null;
-		},
-		set: function( elem ) {
-
-			/* eslint no-unused-expressions: "off" */
-
-			var parent = elem.parentNode;
-			if ( parent ) {
-				parent.selectedIndex;
-
-				if ( parent.parentNode ) {
-					parent.parentNode.selectedIndex;
-				}
-			}
-		}
-	};
-}
-
-jQuery.each( [
-	"tabIndex",
-	"readOnly",
-	"maxLength",
-	"cellSpacing",
-	"cellPadding",
-	"rowSpan",
-	"colSpan",
-	"useMap",
-	"frameBorder",
-	"contentEditable"
-], function() {
-	jQuery.propFix[ this.toLowerCase() ] = this;
-} );
-
-
-
-
-	// Strip and collapse whitespace according to HTML spec
-	// https://infra.spec.whatwg.org/#strip-and-collapse-ascii-whitespace
-	function stripAndCollapse( value ) {
-		var tokens = value.match( rnothtmlwhite ) || [];
-		return tokens.join( " " );
-	}
-
-
-function getClass( elem ) {
-	return elem.getAttribute && elem.getAttribute( "class" ) || "";
-}
-
-function classesToArray( value ) {
-	if ( Array.isArray( value ) ) {
-		return value;
-	}
-	if ( typeof value === "string" ) {
-		return value.match( rnothtmlwhite ) || [];
-	}
-	return [];
-}
-
-jQuery.fn.extend( {
-	addClass: function( value ) {
-		var classes, elem, cur, curValue, clazz, j, finalValue,
-			i = 0;
-
-		if ( isFunction( value ) ) {
-			return this.each( function( j ) {
-				jQuery( this ).addClass( value.call( this, j, getClass( this ) ) );
-			} );
-		}
-
-		classes = classesToArray( value );
-
-		if ( classes.length ) {
-			while ( ( elem = this[ i++ ] ) ) {
-				curValue = getClass( elem );
-				cur = elem.nodeType === 1 && ( " " + stripAndCollapse( curValue ) + " " );
-
-				if ( cur ) {
-					j = 0;
-					while ( ( clazz = classes[ j++ ] ) ) {
-						if ( cur.indexOf( " " + clazz + " " ) < 0 ) {
-							cur += clazz + " ";
-						}
-					}
-
-					// Only assign if different to avoid unneeded rendering.
-					finalValue = stripAndCollapse( cur );
-					if ( curValue !== finalValue ) {
-						elem.setAttribute( "class", finalValue );
-					}
-				}
-			}
-		}
-
-		return this;
-	},
-
-	removeClass: function( value ) {
-		var classes, elem, cur, curValue, clazz, j, finalValue,
-			i = 0;
-
-		if ( isFunction( value ) ) {
-			return this.each( function( j ) {
-				jQuery( this ).removeClass( value.call( this, j, getClass( this ) ) );
-			} );
-		}
-
-		if ( !arguments.length ) {
-			return this.attr( "class", "" );
-		}
-
-		classes = classesToArray( value );
-
-		if ( classes.length ) {
-			while ( ( elem = this[ i++ ] ) ) {
-				curValue = getClass( elem );
-
-				// This expression is here for better compressibility (see addClass)
-				cur = elem.nodeType === 1 && ( " " + stripAndCollapse( curValue ) + " " );
-
-				if ( cur ) {
-					j = 0;
-					while ( ( clazz = classes[ j++ ] ) ) {
-
-						// Remove *all* instances
-						while ( cur.indexOf( " " + clazz + " " ) > -1 ) {
-							cur = cur.replace( " " + clazz + " ", " " );
-						}
-					}
-
-					// Only assign if different to avoid unneeded rendering.
-					finalValue = stripAndCollapse( cur );
-					if ( curValue !== finalValue ) {
-						elem.setAttribute( "class", finalValue );
-					}
-				}
-			}
-		}
-
-		return this;
-	},
-
-	toggleClass: function( value, stateVal ) {
-		var type = typeof value,
-			isValidValue = type === "string" || Array.isArray( value );
-
-		if ( typeof stateVal === "boolean" && isValidValue ) {
-			return stateVal ? this.addClass( value ) : this.removeClass( value );
-		}
-
-		if ( isFunction( value ) ) {
-			return this.each( function( i ) {
-				jQuery( this ).toggleClass(
-					value.call( this, i, getClass( this ), stateVal ),
-					stateVal
-				);
-			} );
-		}
-
-		return this.each( function() {
-			var className, i, self, classNames;
-
-			if ( isValidValue ) {
-
-				// Toggle individual class names
-				i = 0;
-				self = jQuery( this );
-				classNames = classesToArray( value );
-
-				while ( ( className = classNames[ i++ ] ) ) {
-
-					// Check each className given, space separated list
-					if ( self.hasClass( className ) ) {
-						self.removeClass( className );
-					} else {
-						self.addClass( className );
-					}
-				}
-
-			// Toggle whole class name
-			} else if ( value === undefined || type === "boolean" ) {
-				className = getClass( this );
-				if ( className ) {
-
-					// Store className if set
-					dataPriv.set( this, "__className__", className );
-				}
-
-				// If the element has a class name or if we're passed `false`,
-				// then remove the whole classname (if there was one, the above saved it).
-				// Otherwise bring back whatever was previously saved (if anything),
-				// falling back to the empty string if nothing was stored.
-				if ( this.setAttribute ) {
-					this.setAttribute( "class",
-						className || value === false ?
-						"" :
-						dataPriv.get( this, "__className__" ) || ""
-					);
-				}
-			}
-		} );
-	},
-
-	hasClass: function( selector ) {
-		var className, elem,
-			i = 0;
-
-		className = " " + selector + " ";
-		while ( ( elem = this[ i++ ] ) ) {
-			if ( elem.nodeType === 1 &&
-				( " " + stripAndCollapse( getClass( elem ) ) + " " ).indexOf( className ) > -1 ) {
-					return true;
-			}
-		}
-
-		return false;
-	}
-} );
-
-
-
-
-var rreturn = /\r/g;
-
-jQuery.fn.extend( {
-	val: function( value ) {
-		var hooks, ret, valueIsFunction,
-			elem = this[ 0 ];
-
-		if ( !arguments.length ) {
-			if ( elem ) {
-				hooks = jQuery.valHooks[ elem.type ] ||
-					jQuery.valHooks[ elem.nodeName.toLowerCase() ];
-
-				if ( hooks &&
-					"get" in hooks &&
-					( ret = hooks.get( elem, "value" ) ) !== undefined
-				) {
-					return ret;
-				}
-
-				ret = elem.value;
-
-				// Handle most common string cases
-				if ( typeof ret === "string" ) {
-					return ret.replace( rreturn, "" );
-				}
-
-				// Handle cases where value is null/undef or number
-				return ret == null ? "" : ret;
-			}
-
-			return;
-		}
-
-		valueIsFunction = isFunction( value );
-
-		return this.each( function( i ) {
-			var val;
-
-			if ( this.nodeType !== 1 ) {
-				return;
-			}
-
-			if ( valueIsFunction ) {
-				val = value.call( this, i, jQuery( this ).val() );
-			} else {
-				val = value;
-			}
-
-			// Treat null/undefined as ""; convert numbers to string
-			if ( val == null ) {
-				val = "";
-
-			} else if ( typeof val === "number" ) {
-				val += "";
-
-			} else if ( Array.isArray( val ) ) {
-				val = jQuery.map( val, function( value ) {
-					return value == null ? "" : value + "";
-				} );
-			}
-
-			hooks = jQuery.valHooks[ this.type ] || jQuery.valHooks[ this.nodeName.toLowerCase() ];
-
-			// If set returns undefined, fall back to normal setting
-			if ( !hooks || !( "set" in hooks ) || hooks.set( this, val, "value" ) === undefined ) {
-				this.value = val;
-			}
-		} );
-	}
-} );
-
-jQuery.extend( {
-	valHooks: {
-		option: {
-			get: function( elem ) {
-
-				var val = jQuery.find.attr( elem, "value" );
-				return val != null ?
-					val :
-
-					// Support: IE <=10 - 11 only
-					// option.text throws exceptions (#14686, #14858)
-					// Strip and collapse whitespace
-					// https://html.spec.whatwg.org/#strip-and-collapse-whitespace
-					stripAndCollapse( jQuery.text( elem ) );
-			}
-		},
-		select: {
-			get: function( elem ) {
-				var value, option, i,
-					options = elem.options,
-					index = elem.selectedIndex,
-					one = elem.type === "select-one",
-					values = one ? null : [],
-					max = one ? index + 1 : options.length;
-
-				if ( index < 0 ) {
-					i = max;
-
-				} else {
-					i = one ? index : 0;
-				}
-
-				// Loop through all the selected options
-				for ( ; i < max; i++ ) {
-					option = options[ i ];
-
-					// Support: IE <=9 only
-					// IE8-9 doesn't update selected after form reset (#2551)
-					if ( ( option.selected || i === index ) &&
-
-							// Don't return options that are disabled or in a disabled optgroup
-							!option.disabled &&
-							( !option.parentNode.disabled ||
-								!nodeName( option.parentNode, "optgroup" ) ) ) {
-
-						// Get the specific value for the option
-						value = jQuery( option ).val();
-
-						// We don't need an array for one selects
-						if ( one ) {
-							return value;
-						}
-
-						// Multi-Selects return an array
-						values.push( value );
-					}
-				}
-
-				return values;
-			},
-
-			set: function( elem, value ) {
-				var optionSet, option,
-					options = elem.options,
-					values = jQuery.makeArray( value ),
-					i = options.length;
-
-				while ( i-- ) {
-					option = options[ i ];
-
-					/* eslint-disable no-cond-assign */
-
-					if ( option.selected =
-						jQuery.inArray( jQuery.valHooks.option.get( option ), values ) > -1
-					) {
-						optionSet = true;
-					}
-
-					/* eslint-enable no-cond-assign */
-				}
-
-				// Force browsers to behave consistently when non-matching value is set
-				if ( !optionSet ) {
-					elem.selectedIndex = -1;
-				}
-				return values;
-			}
-		}
-	}
-} );
-
-// Radios and checkboxes getter/setter
-jQuery.each( [ "radio", "checkbox" ], function() {
-	jQuery.valHooks[ this ] = {
-		set: function( elem, value ) {
-			if ( Array.isArray( value ) ) {
-				return ( elem.checked = jQuery.inArray( jQuery( elem ).val(), value ) > -1 );
-			}
-		}
-	};
-	if ( !support.checkOn ) {
-		jQuery.valHooks[ this ].get = function( elem ) {
-			return elem.getAttribute( "value" ) === null ? "on" : elem.value;
-		};
-	}
-} );
-
-
-
-
-// Return jQuery for attributes-only inclusion
-
-
-support.focusin = "onfocusin" in window;
-
-
-var rfocusMorph = /^(?:focusinfocus|focusoutblur)$/,
-	stopPropagationCallback = function( e ) {
-		e.stopPropagation();
-	};
-
-jQuery.extend( jQuery.event, {
-
-	trigger: function( event, data, elem, onlyHandlers ) {
-
-		var i, cur, tmp, bubbleType, ontype, handle, special, lastElement,
-			eventPath = [ elem || document ],
-			type = hasOwn.call( event, "type" ) ? event.type : event,
-			namespaces = hasOwn.call( event, "namespace" ) ? event.namespace.split( "." ) : [];
-
-		cur = lastElement = tmp = elem = elem || document;
-
-		// Don't do events on text and comment nodes
-		if ( elem.nodeType === 3 || elem.nodeType === 8 ) {
-			return;
-		}
-
-		// focus/blur morphs to focusin/out; ensure we're not firing them right now
-		if ( rfocusMorph.test( type + jQuery.event.triggered ) ) {
-			return;
-		}
-
-		if ( type.indexOf( "." ) > -1 ) {
-
-			// Namespaced trigger; create a regexp to match event type in handle()
-			namespaces = type.split( "." );
-			type = namespaces.shift();
-			namespaces.sort();
-		}
-		ontype = type.indexOf( ":" ) < 0 && "on" + type;
-
-		// Caller can pass in a jQuery.Event object, Object, or just an event type string
-		event = event[ jQuery.expando ] ?
-			event :
-			new jQuery.Event( type, typeof event === "object" && event );
-
-		// Trigger bitmask: & 1 for native handlers; & 2 for jQuery (always true)
-		event.isTrigger = onlyHandlers ? 2 : 3;
-		event.namespace = namespaces.join( "." );
-		event.rnamespace = event.namespace ?
-			new RegExp( "(^|\\.)" + namespaces.join( "\\.(?:.*\\.|)" ) + "(\\.|$)" ) :
-			null;
-
-		// Clean up the event in case it is being reused
-		event.result = undefined;
-		if ( !event.target ) {
-			event.target = elem;
-		}
-
-		// Clone any incoming data and prepend the event, creating the handler arg list
-		data = data == null ?
-			[ event ] :
-			jQuery.makeArray( data, [ event ] );
-
-		// Allow special events to draw outside the lines
-		special = jQuery.event.special[ type ] || {};
-		if ( !onlyHandlers && special.trigger && special.trigger.apply( elem, data ) === false ) {
-			return;
-		}
-
-		// Determine event propagation path in advance, per W3C events spec (#9951)
-		// Bubble up to document, then to window; watch for a global ownerDocument var (#9724)
-		if ( !onlyHandlers && !special.noBubble && !isWindow( elem ) ) {
-
-			bubbleType = special.delegateType || type;
-			if ( !rfocusMorph.test( bubbleType + type ) ) {
-				cur = cur.parentNode;
-			}
-			for ( ; cur; cur = cur.parentNode ) {
-				eventPath.push( cur );
-				tmp = cur;
-			}
-
-			// Only add window if we got to document (e.g., not plain obj or detached DOM)
-			if ( tmp === ( elem.ownerDocument || document ) ) {
-				eventPath.push( tmp.defaultView || tmp.parentWindow || window );
-			}
-		}
-
-		// Fire handlers on the event path
-		i = 0;
-		while ( ( cur = eventPath[ i++ ] ) && !event.isPropagationStopped() ) {
-			lastElement = cur;
-			event.type = i > 1 ?
-				bubbleType :
-				special.bindType || type;
-
-			// jQuery handler
-			handle = (
-					dataPriv.get( cur, "events" ) || Object.create( null )
-				)[ event.type ] &&
-				dataPriv.get( cur, "handle" );
-			if ( handle ) {
-				handle.apply( cur, data );
-			}
-
-			// Native handler
-			handle = ontype && cur[ ontype ];
-			if ( handle && handle.apply && acceptData( cur ) ) {
-				event.result = handle.apply( cur, data );
-				if ( event.result === false ) {
-					event.preventDefault();
-				}
-			}
-		}
-		event.type = type;
-
-		// If nobody prevented the default action, do it now
-		if ( !onlyHandlers && !event.isDefaultPrevented() ) {
-
-			if ( ( !special._default ||
-				special._default.apply( eventPath.pop(), data ) === false ) &&
-				acceptData( elem ) ) {
-
-				// Call a native DOM method on the target with the same name as the event.
-				// Don't do default actions on window, that's where global variables be (#6170)
-				if ( ontype && isFunction( elem[ type ] ) && !isWindow( elem ) ) {
-
-					// Don't re-trigger an onFOO event when we call its FOO() method
-					tmp = elem[ ontype ];
-
-					if ( tmp ) {
-						elem[ ontype ] = null;
-					}
-
-					// Prevent re-triggering of the same event, since we already bubbled it above
-					jQuery.event.triggered = type;
-
-					if ( event.isPropagationStopped() ) {
-						lastElement.addEventListener( type, stopPropagationCallback );
-					}
-
-					elem[ type ]();
-
-					if ( event.isPropagationStopped() ) {
-						lastElement.removeEventListener( type, stopPropagationCallback );
-					}
-
-					jQuery.event.triggered = undefined;
-
-					if ( tmp ) {
-						elem[ ontype ] = tmp;
-					}
-				}
-			}
-		}
-
-		return event.result;
-	},
-
-	// Piggyback on a donor event to simulate a different one
-	// Used only for `focus(in | out)` events
-	simulate: function( type, elem, event ) {
-		var e = jQuery.extend(
-			new jQuery.Event(),
-			event,
-			{
-				type: type,
-				isSimulated: true
-			}
-		);
-
-		jQuery.event.trigger( e, null, elem );
-	}
-
-} );
-
-jQuery.fn.extend( {
-
-	trigger: function( type, data ) {
-		return this.each( function() {
-			jQuery.event.trigger( type, data, this );
-		} );
-	},
-	triggerHandler: function( type, data ) {
-		var elem = this[ 0 ];
-		if ( elem ) {
-			return jQuery.event.trigger( type, data, elem, true );
-		}
-	}
-} );
-
-
-// Support: Firefox <=44
-// Firefox doesn't have focus(in | out) events
-// Related ticket - https://bugzilla.mozilla.org/show_bug.cgi?id=687787
-//
-// Support: Chrome <=48 - 49, Safari <=9.0 - 9.1
-// focus(in | out) events fire after focus & blur events,
-// which is spec violation - http://www.w3.org/TR/DOM-Level-3-Events/#events-focusevent-event-order
-// Related ticket - https://bugs.chromium.org/p/chromium/issues/detail?id=449857
-if ( !support.focusin ) {
-	jQuery.each( { focus: "focusin", blur: "focusout" }, function( orig, fix ) {
-
-		// Attach a single capturing handler on the document while someone wants focusin/focusout
-		var handler = function( event ) {
-			jQuery.event.simulate( fix, event.target, jQuery.event.fix( event ) );
-		};
-
-		jQuery.event.special[ fix ] = {
-			setup: function() {
-
-				// Handle: regular nodes (via `this.ownerDocument`), window
-				// (via `this.document`) & document (via `this`).
-				var doc = this.ownerDocument || this.document || this,
-					attaches = dataPriv.access( doc, fix );
-
-				if ( !attaches ) {
-					doc.addEventListener( orig, handler, true );
-				}
-				dataPriv.access( doc, fix, ( attaches || 0 ) + 1 );
-			},
-			teardown: function() {
-				var doc = this.ownerDocument || this.document || this,
-					attaches = dataPriv.access( doc, fix ) - 1;
-
-				if ( !attaches ) {
-					doc.removeEventListener( orig, handler, true );
-					dataPriv.remove( doc, fix );
-
-				} else {
-					dataPriv.access( doc, fix, attaches );
-				}
-			}
-		};
-	} );
-}
-var location = window.location;
-
-var nonce = { guid: Date.now() };
-
-var rquery = ( /\?/ );
-
-
-
-// Cross-browser xml parsing
-jQuery.parseXML = function( data ) {
-	var xml;
-	if ( !data || typeof data !== "string" ) {
-		return null;
-	}
-
-	// Support: IE 9 - 11 only
-	// IE throws on parseFromString with invalid input.
-	try {
-		xml = ( new window.DOMParser() ).parseFromString( data, "text/xml" );
-	} catch ( e ) {
-		xml = undefined;
-	}
-
-	if ( !xml || xml.getElementsByTagName( "parsererror" ).length ) {
-		jQuery.error( "Invalid XML: " + data );
-	}
-	return xml;
-};
-
-
-var
-	rbracket = /\[\]$/,
-	rCRLF = /\r?\n/g,
-	rsubmitterTypes = /^(?:submit|button|image|reset|file)$/i,
-	rsubmittable = /^(?:input|select|textarea|keygen)/i;
-
-function buildParams( prefix, obj, traditional, add ) {
-	var name;
-
-	if ( Array.isArray( obj ) ) {
-
-		// Serialize array item.
-		jQuery.each( obj, function( i, v ) {
-			if ( traditional || rbracket.test( prefix ) ) {
-
-				// Treat each array item as a scalar.
-				add( prefix, v );
-
-			} else {
-
-				// Item is non-scalar (array or object), encode its numeric index.
-				buildParams(
-					prefix + "[" + ( typeof v === "object" && v != null ? i : "" ) + "]",
-					v,
-					traditional,
-					add
-				);
-			}
-		} );
-
-	} else if ( !traditional && toType( obj ) === "object" ) {
-
-		// Serialize object item.
-		for ( name in obj ) {
-			buildParams( prefix + "[" + name + "]", obj[ name ], traditional, add );
-		}
-
-	} else {
-
-		// Serialize scalar item.
-		add( prefix, obj );
-	}
-}
-
-// Serialize an array of form elements or a set of
-// key/values into a query string
-jQuery.param = function( a, traditional ) {
-	var prefix,
-		s = [],
-		add = function( key, valueOrFunction ) {
-
-			// If value is a function, invoke it and use its return value
-			var value = isFunction( valueOrFunction ) ?
-				valueOrFunction() :
-				valueOrFunction;
-
-			s[ s.length ] = encodeURIComponent( key ) + "=" +
-				encodeURIComponent( value == null ? "" : value );
-		};
-
-	if ( a == null ) {
-		return "";
-	}
-
-	// If an array was passed in, assume that it is an array of form elements.
-	if ( Array.isArray( a ) || ( a.jquery && !jQuery.isPlainObject( a ) ) ) {
-
-		// Serialize the form elements
-		jQuery.each( a, function() {
-			add( this.name, this.value );
-		} );
-
-	} else {
-
-		// If traditional, encode the "old" way (the way 1.3.2 or older
-		// did it), otherwise encode params recursively.
-		for ( prefix in a ) {
-			buildParams( prefix, a[ prefix ], traditional, add );
-		}
-	}
-
-	// Return the resulting serialization
-	return s.join( "&" );
-};
-
-jQuery.fn.extend( {
-	serialize: function() {
-		return jQuery.param( this.serializeArray() );
-	},
-	serializeArray: function() {
-		return this.map( function() {
-
-			// Can add propHook for "elements" to filter or add form elements
-			var elements = jQuery.prop( this, "elements" );
-			return elements ? jQuery.makeArray( elements ) : this;
-		} )
-		.filter( function() {
-			var type = this.type;
-
-			// Use .is( ":disabled" ) so that fieldset[disabled] works
-			return this.name && !jQuery( this ).is( ":disabled" ) &&
-				rsubmittable.test( this.nodeName ) && !rsubmitterTypes.test( type ) &&
-				( this.checked || !rcheckableType.test( type ) );
-		} )
-		.map( function( _i, elem ) {
-			var val = jQuery( this ).val();
-
-			if ( val == null ) {
-				return null;
-			}
-
-			if ( Array.isArray( val ) ) {
-				return jQuery.map( val, function( val ) {
-					return { name: elem.name, value: val.replace( rCRLF, "\r\n" ) };
-				} );
-			}
-
-			return { name: elem.name, value: val.replace( rCRLF, "\r\n" ) };
-		} ).get();
-	}
-} );
-
-
-var
-	r20 = /%20/g,
-	rhash = /#.*$/,
-	rantiCache = /([?&])_=[^&]*/,
-	rheaders = /^(.*?):[ \t]*([^\r\n]*)$/mg,
-
-	// #7653, #8125, #8152: local protocol detection
-	rlocalProtocol = /^(?:about|app|app-storage|.+-extension|file|res|widget):$/,
-	rnoContent = /^(?:GET|HEAD)$/,
-	rprotocol = /^\/\//,
-
-	/* Prefilters
-	 * 1) They are useful to introduce custom dataTypes (see ajax/jsonp.js for an example)
-	 * 2) These are called:
-	 *    - BEFORE asking for a transport
-	 *    - AFTER param serialization (s.data is a string if s.processData is true)
-	 * 3) key is the dataType
-	 * 4) the catchall symbol "*" can be used
-	 * 5) execution will start with transport dataType and THEN continue down to "*" if needed
-	 */
-	prefilters = {},
-
-	/* Transports bindings
-	 * 1) key is the dataType
-	 * 2) the catchall symbol "*" can be used
-	 * 3) selection will start with transport dataType and THEN go to "*" if needed
-	 */
-	transports = {},
-
-	// Avoid comment-prolog char sequence (#10098); must appease lint and evade compression
-	allTypes = "*/".concat( "*" ),
-
-	// Anchor tag for parsing the document origin
-	originAnchor = document.createElement( "a" );
-	originAnchor.href = location.href;
-
-// Base "constructor" for jQuery.ajaxPrefilter and jQuery.ajaxTransport
-function addToPrefiltersOrTransports( structure ) {
-
-	// dataTypeExpression is optional and defaults to "*"
-	return function( dataTypeExpression, func ) {
-
-		if ( typeof dataTypeExpression !== "string" ) {
-			func = dataTypeExpression;
-			dataTypeExpression = "*";
-		}
-
-		var dataType,
-			i = 0,
-			dataTypes = dataTypeExpression.toLowerCase().match( rnothtmlwhite ) || [];
-
-		if ( isFunction( func ) ) {
-
-			// For each dataType in the dataTypeExpression
-			while ( ( dataType = dataTypes[ i++ ] ) ) {
-
-				// Prepend if requested
-				if ( dataType[ 0 ] === "+" ) {
-					dataType = dataType.slice( 1 ) || "*";
-					( structure[ dataType ] = structure[ dataType ] || [] ).unshift( func );
-
-				// Otherwise append
-				} else {
-					( structure[ dataType ] = structure[ dataType ] || [] ).push( func );
-				}
-			}
-		}
-	};
-}
-
-// Base inspection function for prefilters and transports
-function inspectPrefiltersOrTransports( structure, options, originalOptions, jqXHR ) {
-
-	var inspected = {},
-		seekingTransport = ( structure === transports );
-
-	function inspect( dataType ) {
-		var selected;
-		inspected[ dataType ] = true;
-		jQuery.each( structure[ dataType ] || [], function( _, prefilterOrFactory ) {
-			var dataTypeOrTransport = prefilterOrFactory( options, originalOptions, jqXHR );
-			if ( typeof dataTypeOrTransport === "string" &&
-				!seekingTransport && !inspected[ dataTypeOrTransport ] ) {
-
-				options.dataTypes.unshift( dataTypeOrTransport );
-				inspect( dataTypeOrTransport );
-				return false;
-			} else if ( seekingTransport ) {
-				return !( selected = dataTypeOrTransport );
-			}
-		} );
-		return selected;
-	}
-
-	return inspect( options.dataTypes[ 0 ] ) || !inspected[ "*" ] && inspect( "*" );
-}
-
-// A special extend for ajax options
-// that takes "flat" options (not to be deep extended)
-// Fixes #9887
-function ajaxExtend( target, src ) {
-	var key, deep,
-		flatOptions = jQuery.ajaxSettings.flatOptions || {};
-
-	for ( key in src ) {
-		if ( src[ key ] !== undefined ) {
-			( flatOptions[ key ] ? target : ( deep || ( deep = {} ) ) )[ key ] = src[ key ];
-		}
-	}
-	if ( deep ) {
-		jQuery.extend( true, target, deep );
-	}
-
-	return target;
-}
-
-/* Handles responses to an ajax request:
- * - finds the right dataType (mediates between content-type and expected dataType)
- * - returns the corresponding response
- */
-function ajaxHandleResponses( s, jqXHR, responses ) {
-
-	var ct, type, finalDataType, firstDataType,
-		contents = s.contents,
-		dataTypes = s.dataTypes;
-
-	// Remove auto dataType and get content-type in the process
-	while ( dataTypes[ 0 ] === "*" ) {
-		dataTypes.shift();
-		if ( ct === undefined ) {
-			ct = s.mimeType || jqXHR.getResponseHeader( "Content-Type" );
-		}
-	}
-
-	// Check if we're dealing with a known content-type
-	if ( ct ) {
-		for ( type in contents ) {
-			if ( contents[ type ] && contents[ type ].test( ct ) ) {
-				dataTypes.unshift( type );
-				break;
-			}
-		}
-	}
-
-	// Check to see if we have a response for the expected dataType
-	if ( dataTypes[ 0 ] in responses ) {
-		finalDataType = dataTypes[ 0 ];
-	} else {
-
-		// Try convertible dataTypes
-		for ( type in responses ) {
-			if ( !dataTypes[ 0 ] || s.converters[ type + " " + dataTypes[ 0 ] ] ) {
-				finalDataType = type;
-				break;
-			}
-			if ( !firstDataType ) {
-				firstDataType = type;
-			}
-		}
-
-		// Or just use first one
-		finalDataType = finalDataType || firstDataType;
-	}
-
-	// If we found a dataType
-	// We add the dataType to the list if needed
-	// and return the corresponding response
-	if ( finalDataType ) {
-		if ( finalDataType !== dataTypes[ 0 ] ) {
-			dataTypes.unshift( finalDataType );
-		}
-		return responses[ finalDataType ];
-	}
-}
-
-/* Chain conversions given the request and the original response
- * Also sets the responseXXX fields on the jqXHR instance
- */
-function ajaxConvert( s, response, jqXHR, isSuccess ) {
-	var conv2, current, conv, tmp, prev,
-		converters = {},
-
-		// Work with a copy of dataTypes in case we need to modify it for conversion
-		dataTypes = s.dataTypes.slice();
-
-	// Create converters map with lowercased keys
-	if ( dataTypes[ 1 ] ) {
-		for ( conv in s.converters ) {
-			converters[ conv.toLowerCase() ] = s.converters[ conv ];
-		}
-	}
-
-	current = dataTypes.shift();
-
-	// Convert to each sequential dataType
-	while ( current ) {
-
-		if ( s.responseFields[ current ] ) {
-			jqXHR[ s.responseFields[ current ] ] = response;
-		}
-
-		// Apply the dataFilter if provided
-		if ( !prev && isSuccess && s.dataFilter ) {
-			response = s.dataFilter( response, s.dataType );
-		}
-
-		prev = current;
-		current = dataTypes.shift();
-
-		if ( current ) {
-
-			// There's only work to do if current dataType is non-auto
-			if ( current === "*" ) {
-
-				current = prev;
-
-			// Convert response if prev dataType is non-auto and differs from current
-			} else if ( prev !== "*" && prev !== current ) {
-
-				// Seek a direct converter
-				conv = converters[ prev + " " + current ] || converters[ "* " + current ];
-
-				// If none found, seek a pair
-				if ( !conv ) {
-					for ( conv2 in converters ) {
-
-						// If conv2 outputs current
-						tmp = conv2.split( " " );
-						if ( tmp[ 1 ] === current ) {
-
-							// If prev can be converted to accepted input
-							conv = converters[ prev + " " + tmp[ 0 ] ] ||
-								converters[ "* " + tmp[ 0 ] ];
-							if ( conv ) {
-
-								// Condense equivalence converters
-								if ( conv === true ) {
-									conv = converters[ conv2 ];
-
-								// Otherwise, insert the intermediate dataType
-								} else if ( converters[ conv2 ] !== true ) {
-									current = tmp[ 0 ];
-									dataTypes.unshift( tmp[ 1 ] );
-								}
-								break;
-							}
-						}
-					}
-				}
-
-				// Apply converter (if not an equivalence)
-				if ( conv !== true ) {
-
-					// Unless errors are allowed to bubble, catch and return them
-					if ( conv && s.throws ) {
-						response = conv( response );
-					} else {
-						try {
-							response = conv( response );
-						} catch ( e ) {
-							return {
-								state: "parsererror",
-								error: conv ? e : "No conversion from " + prev + " to " + current
-							};
-						}
-					}
-				}
-			}
-		}
-	}
-
-	return { state: "success", data: response };
-}
-
-jQuery.extend( {
-
-	// Counter for holding the number of active queries
-	active: 0,
-
-	// Last-Modified header cache for next request
-	lastModified: {},
-	etag: {},
-
-	ajaxSettings: {
-		url: location.href,
-		type: "GET",
-		isLocal: rlocalProtocol.test( location.protocol ),
-		global: true,
-		processData: true,
-		async: true,
-		contentType: "application/x-www-form-urlencoded; charset=UTF-8",
-
-		/*
-		timeout: 0,
-		data: null,
-		dataType: null,
-		username: null,
-		password: null,
-		cache: null,
-		throws: false,
-		traditional: false,
-		headers: {},
-		*/
-
-		accepts: {
-			"*": allTypes,
-			text: "text/plain",
-			html: "text/html",
-			xml: "application/xml, text/xml",
-			json: "application/json, text/javascript"
-		},
-
-		contents: {
-			xml: /\bxml\b/,
-			html: /\bhtml/,
-			json: /\bjson\b/
-		},
-
-		responseFields: {
-			xml: "responseXML",
-			text: "responseText",
-			json: "responseJSON"
-		},
-
-		// Data converters
-		// Keys separate source (or catchall "*") and destination types with a single space
-		converters: {
-
-			// Convert anything to text
-			"* text": String,
-
-			// Text to html (true = no transformation)
-			"text html": true,
-
-			// Evaluate text as a json expression
-			"text json": JSON.parse,
-
-			// Parse text as xml
-			"text xml": jQuery.parseXML
-		},
-
-		// For options that shouldn't be deep extended:
-		// you can add your own custom options here if
-		// and when you create one that shouldn't be
-		// deep extended (see ajaxExtend)
-		flatOptions: {
-			url: true,
-			context: true
-		}
-	},
-
-	// Creates a full fledged settings object into target
-	// with both ajaxSettings and settings fields.
-	// If target is omitted, writes into ajaxSettings.
-	ajaxSetup: function( target, settings ) {
-		return settings ?
-
-			// Building a settings object
-			ajaxExtend( ajaxExtend( target, jQuery.ajaxSettings ), settings ) :
-
-			// Extending ajaxSettings
-			ajaxExtend( jQuery.ajaxSettings, target );
-	},
-
-	ajaxPrefilter: addToPrefiltersOrTransports( prefilters ),
-	ajaxTransport: addToPrefiltersOrTransports( transports ),
-
-	// Main method
-	ajax: function( url, options ) {
-
-		// If url is an object, simulate pre-1.5 signature
-		if ( typeof url === "object" ) {
-			options = url;
-			url = undefined;
-		}
-
-		// Force options to be an object
-		options = options || {};
-
-		var transport,
-
-			// URL without anti-cache param
-			cacheURL,
-
-			// Response headers
-			responseHeadersString,
-			responseHeaders,
-
-			// timeout handle
-			timeoutTimer,
-
-			// Url cleanup var
-			urlAnchor,
-
-			// Request state (becomes false upon send and true upon completion)
-			completed,
-
-			// To know if global events are to be dispatched
-			fireGlobals,
-
-			// Loop variable
-			i,
-
-			// uncached part of the url
-			uncached,
-
-			// Create the final options object
-			s = jQuery.ajaxSetup( {}, options ),
-
-			// Callbacks context
-			callbackContext = s.context || s,
-
-			// Context for global events is callbackContext if it is a DOM node or jQuery collection
-			globalEventContext = s.context &&
-				( callbackContext.nodeType || callbackContext.jquery ) ?
-					jQuery( callbackContext ) :
-					jQuery.event,
-
-			// Deferreds
-			deferred = jQuery.Deferred(),
-			completeDeferred = jQuery.Callbacks( "once memory" ),
-
-			// Status-dependent callbacks
-			statusCode = s.statusCode || {},
-
-			// Headers (they are sent all at once)
-			requestHeaders = {},
-			requestHeadersNames = {},
-
-			// Default abort message
-			strAbort = "canceled",
-
-			// Fake xhr
-			jqXHR = {
-				readyState: 0,
-
-				// Builds headers hashtable if needed
-				getResponseHeader: function( key ) {
-					var match;
-					if ( completed ) {
-						if ( !responseHeaders ) {
-							responseHeaders = {};
-							while ( ( match = rheaders.exec( responseHeadersString ) ) ) {
-								responseHeaders[ match[ 1 ].toLowerCase() + " " ] =
-									( responseHeaders[ match[ 1 ].toLowerCase() + " " ] || [] )
-										.concat( match[ 2 ] );
-							}
-						}
-						match = responseHeaders[ key.toLowerCase() + " " ];
-					}
-					return match == null ? null : match.join( ", " );
-				},
-
-				// Raw string
-				getAllResponseHeaders: function() {
-					return completed ? responseHeadersString : null;
-				},
-
-				// Caches the header
-				setRequestHeader: function( name, value ) {
-					if ( completed == null ) {
-						name = requestHeadersNames[ name.toLowerCase() ] =
-							requestHeadersNames[ name.toLowerCase() ] || name;
-						requestHeaders[ name ] = value;
-					}
-					return this;
-				},
-
-				// Overrides response content-type header
-				overrideMimeType: function( type ) {
-					if ( completed == null ) {
-						s.mimeType = type;
-					}
-					return this;
-				},
-
-				// Status-dependent callbacks
-				statusCode: function( map ) {
-					var code;
-					if ( map ) {
-						if ( completed ) {
-
-							// Execute the appropriate callbacks
-							jqXHR.always( map[ jqXHR.status ] );
-						} else {
-
-							// Lazy-add the new callbacks in a way that preserves old ones
-							for ( code in map ) {
-								statusCode[ code ] = [ statusCode[ code ], map[ code ] ];
-							}
-						}
-					}
-					return this;
-				},
-
-				// Cancel the request
-				abort: function( statusText ) {
-					var finalText = statusText || strAbort;
-					if ( transport ) {
-						transport.abort( finalText );
-					}
-					done( 0, finalText );
-					return this;
-				}
-			};
-
-		// Attach deferreds
-		deferred.promise( jqXHR );
-
-		// Add protocol if not provided (prefilters might expect it)
-		// Handle falsy url in the settings object (#10093: consistency with old signature)
-		// We also use the url parameter if available
-		s.url = ( ( url || s.url || location.href ) + "" )
-			.replace( rprotocol, location.protocol + "//" );
-
-		// Alias method option to type as per ticket #12004
-		s.type = options.method || options.type || s.method || s.type;
-
-		// Extract dataTypes list
-		s.dataTypes = ( s.dataType || "*" ).toLowerCase().match( rnothtmlwhite ) || [ "" ];
-
-		// A cross-domain request is in order when the origin doesn't match the current origin.
-		if ( s.crossDomain == null ) {
-			urlAnchor = document.createElement( "a" );
-
-			// Support: IE <=8 - 11, Edge 12 - 15
-			// IE throws exception on accessing the href property if url is malformed,
-			// e.g. http://example.com:80x/
-			try {
-				urlAnchor.href = s.url;
-
-				// Support: IE <=8 - 11 only
-				// Anchor's host property isn't correctly set when s.url is relative
-				urlAnchor.href = urlAnchor.href;
-				s.crossDomain = originAnchor.protocol + "//" + originAnchor.host !==
-					urlAnchor.protocol + "//" + urlAnchor.host;
-			} catch ( e ) {
-
-				// If there is an error parsing the URL, assume it is crossDomain,
-				// it can be rejected by the transport if it is invalid
-				s.crossDomain = true;
-			}
-		}
-
-		// Convert data if not already a string
-		if ( s.data && s.processData && typeof s.data !== "string" ) {
-			s.data = jQuery.param( s.data, s.traditional );
-		}
-
-		// Apply prefilters
-		inspectPrefiltersOrTransports( prefilters, s, options, jqXHR );
-
-		// If request was aborted inside a prefilter, stop there
-		if ( completed ) {
-			return jqXHR;
-		}
-
-		// We can fire global events as of now if asked to
-		// Don't fire events if jQuery.event is undefined in an AMD-usage scenario (#15118)
-		fireGlobals = jQuery.event && s.global;
-
-		// Watch for a new set of requests
-		if ( fireGlobals && jQuery.active++ === 0 ) {
-			jQuery.event.trigger( "ajaxStart" );
-		}
-
-		// Uppercase the type
-		s.type = s.type.toUpperCase();
-
-		// Determine if request has content
-		s.hasContent = !rnoContent.test( s.type );
-
-		// Save the URL in case we're toying with the If-Modified-Since
-		// and/or If-None-Match header later on
-		// Remove hash to simplify url manipulation
-		cacheURL = s.url.replace( rhash, "" );
-
-		// More options handling for requests with no content
-		if ( !s.hasContent ) {
-
-			// Remember the hash so we can put it back
-			uncached = s.url.slice( cacheURL.length );
-
-			// If data is available and should be processed, append data to url
-			if ( s.data && ( s.processData || typeof s.data === "string" ) ) {
-				cacheURL += ( rquery.test( cacheURL ) ? "&" : "?" ) + s.data;
-
-				// #9682: remove data so that it's not used in an eventual retry
-				delete s.data;
-			}
-
-			// Add or update anti-cache param if needed
-			if ( s.cache === false ) {
-				cacheURL = cacheURL.replace( rantiCache, "$1" );
-				uncached = ( rquery.test( cacheURL ) ? "&" : "?" ) + "_=" + ( nonce.guid++ ) +
-					uncached;
-			}
-
-			// Put hash and anti-cache on the URL that will be requested (gh-1732)
-			s.url = cacheURL + uncached;
-
-		// Change '%20' to '+' if this is encoded form body content (gh-2658)
-		} else if ( s.data && s.processData &&
-			( s.contentType || "" ).indexOf( "application/x-www-form-urlencoded" ) === 0 ) {
-			s.data = s.data.replace( r20, "+" );
-		}
-
-		// Set the If-Modified-Since and/or If-None-Match header, if in ifModified mode.
-		if ( s.ifModified ) {
-			if ( jQuery.lastModified[ cacheURL ] ) {
-				jqXHR.setRequestHeader( "If-Modified-Since", jQuery.lastModified[ cacheURL ] );
-			}
-			if ( jQuery.etag[ cacheURL ] ) {
-				jqXHR.setRequestHeader( "If-None-Match", jQuery.etag[ cacheURL ] );
-			}
-		}
-
-		// Set the correct header, if data is being sent
-		if ( s.data && s.hasContent && s.contentType !== false || options.contentType ) {
-			jqXHR.setRequestHeader( "Content-Type", s.contentType );
-		}
-
-		// Set the Accepts header for the server, depending on the dataType
-		jqXHR.setRequestHeader(
-			"Accept",
-			s.dataTypes[ 0 ] && s.accepts[ s.dataTypes[ 0 ] ] ?
-				s.accepts[ s.dataTypes[ 0 ] ] +
-					( s.dataTypes[ 0 ] !== "*" ? ", " + allTypes + "; q=0.01" : "" ) :
-				s.accepts[ "*" ]
-		);
-
-		// Check for headers option
-		for ( i in s.headers ) {
-			jqXHR.setRequestHeader( i, s.headers[ i ] );
-		}
-
-		// Allow custom headers/mimetypes and early abort
-		if ( s.beforeSend &&
-			( s.beforeSend.call( callbackContext, jqXHR, s ) === false || completed ) ) {
-
-			// Abort if not done already and return
-			return jqXHR.abort();
-		}
-
-		// Aborting is no longer a cancellation
-		strAbort = "abort";
-
-		// Install callbacks on deferreds
-		completeDeferred.add( s.complete );
-		jqXHR.done( s.success );
-		jqXHR.fail( s.error );
-
-		// Get transport
-		transport = inspectPrefiltersOrTransports( transports, s, options, jqXHR );
-
-		// If no transport, we auto-abort
-		if ( !transport ) {
-			done( -1, "No Transport" );
-		} else {
-			jqXHR.readyState = 1;
-
-			// Send global event
-			if ( fireGlobals ) {
-				globalEventContext.trigger( "ajaxSend", [ jqXHR, s ] );
-			}
-
-			// If request was aborted inside ajaxSend, stop there
-			if ( completed ) {
-				return jqXHR;
-			}
-
-			// Timeout
-			if ( s.async && s.timeout > 0 ) {
-				timeoutTimer = window.setTimeout( function() {
-					jqXHR.abort( "timeout" );
-				}, s.timeout );
-			}
-
-			try {
-				completed = false;
-				transport.send( requestHeaders, done );
-			} catch ( e ) {
-
-				// Rethrow post-completion exceptions
-				if ( completed ) {
-					throw e;
-				}
-
-				// Propagate others as results
-				done( -1, e );
-			}
-		}
-
-		// Callback for when everything is done
-		function done( status, nativeStatusText, responses, headers ) {
-			var isSuccess, success, error, response, modified,
-				statusText = nativeStatusText;
-
-			// Ignore repeat invocations
-			if ( completed ) {
-				return;
-			}
-
-			completed = true;
-
-			// Clear timeout if it exists
-			if ( timeoutTimer ) {
-				window.clearTimeout( timeoutTimer );
-			}
-
-			// Dereference transport for early garbage collection
-			// (no matter how long the jqXHR object will be used)
-			transport = undefined;
-
-			// Cache response headers
-			responseHeadersString = headers || "";
-
-			// Set readyState
-			jqXHR.readyState = status > 0 ? 4 : 0;
-
-			// Determine if successful
-			isSuccess = status >= 200 && status < 300 || status === 304;
-
-			// Get response data
-			if ( responses ) {
-				response = ajaxHandleResponses( s, jqXHR, responses );
-			}
-
-			// Use a noop converter for missing script
-			if ( !isSuccess && jQuery.inArray( "script", s.dataTypes ) > -1 ) {
-				s.converters[ "text script" ] = function() {};
-			}
-
-			// Convert no matter what (that way responseXXX fields are always set)
-			response = ajaxConvert( s, response, jqXHR, isSuccess );
-
-			// If successful, handle type chaining
-			if ( isSuccess ) {
-
-				// Set the If-Modified-Since and/or If-None-Match header, if in ifModified mode.
-				if ( s.ifModified ) {
-					modified = jqXHR.getResponseHeader( "Last-Modified" );
-					if ( modified ) {
-						jQuery.lastModified[ cacheURL ] = modified;
-					}
-					modified = jqXHR.getResponseHeader( "etag" );
-					if ( modified ) {
-						jQuery.etag[ cacheURL ] = modified;
-					}
-				}
-
-				// if no content
-				if ( status === 204 || s.type === "HEAD" ) {
-					statusText = "nocontent";
-
-				// if not modified
-				} else if ( status === 304 ) {
-					statusText = "notmodified";
-
-				// If we have data, let's convert it
-				} else {
-					statusText = response.state;
-					success = response.data;
-					error = response.error;
-					isSuccess = !error;
-				}
-			} else {
-
-				// Extract error from statusText and normalize for non-aborts
-				error = statusText;
-				if ( status || !statusText ) {
-					statusText = "error";
-					if ( status < 0 ) {
-						status = 0;
-					}
-				}
-			}
-
-			// Set data for the fake xhr object
-			jqXHR.status = status;
-			jqXHR.statusText = ( nativeStatusText || statusText ) + "";
-
-			// Success/Error
-			if ( isSuccess ) {
-				deferred.resolveWith( callbackContext, [ success, statusText, jqXHR ] );
-			} else {
-				deferred.rejectWith( callbackContext, [ jqXHR, statusText, error ] );
-			}
-
-			// Status-dependent callbacks
-			jqXHR.statusCode( statusCode );
-			statusCode = undefined;
-
-			if ( fireGlobals ) {
-				globalEventContext.trigger( isSuccess ? "ajaxSuccess" : "ajaxError",
-					[ jqXHR, s, isSuccess ? success : error ] );
-			}
-
-			// Complete
-			completeDeferred.fireWith( callbackContext, [ jqXHR, statusText ] );
-
-			if ( fireGlobals ) {
-				globalEventContext.trigger( "ajaxComplete", [ jqXHR, s ] );
-
-				// Handle the global AJAX counter
-				if ( !( --jQuery.active ) ) {
-					jQuery.event.trigger( "ajaxStop" );
-				}
-			}
-		}
-
-		return jqXHR;
-	},
-
-	getJSON: function( url, data, callback ) {
-		return jQuery.get( url, data, callback, "json" );
-	},
-
-	getScript: function( url, callback ) {
-		return jQuery.get( url, undefined, callback, "script" );
-	}
-} );
-
-jQuery.each( [ "get", "post" ], function( _i, method ) {
-	jQuery[ method ] = function( url, data, callback, type ) {
-
-		// Shift arguments if data argument was omitted
-		if ( isFunction( data ) ) {
-			type = type || callback;
-			callback = data;
-			data = undefined;
-		}
-
-		// The url can be an options object (which then must have .url)
-		return jQuery.ajax( jQuery.extend( {
-			url: url,
-			type: method,
-			dataType: type,
-			data: data,
-			success: callback
-		}, jQuery.isPlainObject( url ) && url ) );
-	};
-} );
-
-jQuery.ajaxPrefilter( function( s ) {
-	var i;
-	for ( i in s.headers ) {
-		if ( i.toLowerCase() === "content-type" ) {
-			s.contentType = s.headers[ i ] || "";
-		}
-	}
-} );
-
-
-jQuery._evalUrl = function( url, options, doc ) {
-	return jQuery.ajax( {
-		url: url,
-
-		// Make this explicit, since user can override this through ajaxSetup (#11264)
-		type: "GET",
-		dataType: "script",
-		cache: true,
-		async: false,
-		global: false,
-
-		// Only evaluate the response if it is successful (gh-4126)
-		// dataFilter is not invoked for failure responses, so using it instead
-		// of the default converter is kludgy but it works.
-		converters: {
-			"text script": function() {}
-		},
-		dataFilter: function( response ) {
-			jQuery.globalEval( response, options, doc );
-		}
-	} );
-};
-
-
-jQuery.fn.extend( {
-	wrapAll: function( html ) {
-		var wrap;
-
-		if ( this[ 0 ] ) {
-			if ( isFunction( html ) ) {
-				html = html.call( this[ 0 ] );
-			}
-
-			// The elements to wrap the target around
-			wrap = jQuery( html, this[ 0 ].ownerDocument ).eq( 0 ).clone( true );
-
-			if ( this[ 0 ].parentNode ) {
-				wrap.insertBefore( this[ 0 ] );
-			}
-
-			wrap.map( function() {
-				var elem = this;
-
-				while ( elem.firstElementChild ) {
-					elem = elem.firstElementChild;
-				}
-
-				return elem;
-			} ).append( this );
-		}
-
-		return this;
-	},
-
-	wrapInner: function( html ) {
-		if ( isFunction( html ) ) {
-			return this.each( function( i ) {
-				jQuery( this ).wrapInner( html.call( this, i ) );
-			} );
-		}
-
-		return this.each( function() {
-			var self = jQuery( this ),
-				contents = self.contents();
-
-			if ( contents.length ) {
-				contents.wrapAll( html );
-
-			} else {
-				self.append( html );
-			}
-		} );
-	},
-
-	wrap: function( html ) {
-		var htmlIsFunction = isFunction( html );
-
-		return this.each( function( i ) {
-			jQuery( this ).wrapAll( htmlIsFunction ? html.call( this, i ) : html );
-		} );
-	},
-
-	unwrap: function( selector ) {
-		this.parent( selector ).not( "body" ).each( function() {
-			jQuery( this ).replaceWith( this.childNodes );
-		} );
-		return this;
-	}
-} );
-
-
-jQuery.expr.pseudos.hidden = function( elem ) {
-	return !jQuery.expr.pseudos.visible( elem );
-};
-jQuery.expr.pseudos.visible = function( elem ) {
-	return !!( elem.offsetWidth || elem.offsetHeight || elem.getClientRects().length );
-};
-
-
-
-
-jQuery.ajaxSettings.xhr = function() {
-	try {
-		return new window.XMLHttpRequest();
-	} catch ( e ) {}
-};
-
-var xhrSuccessStatus = {
-
-		// File protocol always yields status code 0, assume 200
-		0: 200,
-
-		// Support: IE <=9 only
-		// #1450: sometimes IE returns 1223 when it should be 204
-		1223: 204
-	},
-	xhrSupported = jQuery.ajaxSettings.xhr();
-
-support.cors = !!xhrSupported && ( "withCredentials" in xhrSupported );
-support.ajax = xhrSupported = !!xhrSupported;
-
-jQuery.ajaxTransport( function( options ) {
-	var callback, errorCallback;
-
-	// Cross domain only allowed if supported through XMLHttpRequest
-	if ( support.cors || xhrSupported && !options.crossDomain ) {
-		return {
-			send: function( headers, complete ) {
-				var i,
-					xhr = options.xhr();
-
-				xhr.open(
-					options.type,
-					options.url,
-					options.async,
-					options.username,
-					options.password
-				);
-
-				// Apply custom fields if provided
-				if ( options.xhrFields ) {
-					for ( i in options.xhrFields ) {
-						xhr[ i ] = options.xhrFields[ i ];
-					}
-				}
-
-				// Override mime type if needed
-				if ( options.mimeType && xhr.overrideMimeType ) {
-					xhr.overrideMimeType( options.mimeType );
-				}
-
-				// X-Requested-With header
-				// For cross-domain requests, seeing as conditions for a preflight are
-				// akin to a jigsaw puzzle, we simply never set it to be sure.
-				// (it can always be set on a per-request basis or even using ajaxSetup)
-				// For same-domain requests, won't change header if already provided.
-				if ( !options.crossDomain && !headers[ "X-Requested-With" ] ) {
-					headers[ "X-Requested-With" ] = "XMLHttpRequest";
-				}
-
-				// Set headers
-				for ( i in headers ) {
-					xhr.setRequestHeader( i, headers[ i ] );
-				}
-
-				// Callback
-				callback = function( type ) {
-					return function() {
-						if ( callback ) {
-							callback = errorCallback = xhr.onload =
-								xhr.onerror = xhr.onabort = xhr.ontimeout =
-									xhr.onreadystatechange = null;
-
-							if ( type === "abort" ) {
-								xhr.abort();
-							} else if ( type === "error" ) {
-
-								// Support: IE <=9 only
-								// On a manual native abort, IE9 throws
-								// errors on any property access that is not readyState
-								if ( typeof xhr.status !== "number" ) {
-									complete( 0, "error" );
-								} else {
-									complete(
-
-										// File: protocol always yields status 0; see #8605, #14207
-										xhr.status,
-										xhr.statusText
-									);
-								}
-							} else {
-								complete(
-									xhrSuccessStatus[ xhr.status ] || xhr.status,
-									xhr.statusText,
-
-									// Support: IE <=9 only
-									// IE9 has no XHR2 but throws on binary (trac-11426)
-									// For XHR2 non-text, let the caller handle it (gh-2498)
-									( xhr.responseType || "text" ) !== "text"  ||
-									typeof xhr.responseText !== "string" ?
-										{ binary: xhr.response } :
-										{ text: xhr.responseText },
-									xhr.getAllResponseHeaders()
-								);
-							}
-						}
-					};
-				};
-
-				// Listen to events
-				xhr.onload = callback();
-				errorCallback = xhr.onerror = xhr.ontimeout = callback( "error" );
-
-				// Support: IE 9 only
-				// Use onreadystatechange to replace onabort
-				// to handle uncaught aborts
-				if ( xhr.onabort !== undefined ) {
-					xhr.onabort = errorCallback;
-				} else {
-					xhr.onreadystatechange = function() {
-
-						// Check readyState before timeout as it changes
-						if ( xhr.readyState === 4 ) {
-
-							// Allow onerror to be called first,
-							// but that will not handle a native abort
-							// Also, save errorCallback to a variable
-							// as xhr.onerror cannot be accessed
-							window.setTimeout( function() {
-								if ( callback ) {
-									errorCallback();
-								}
-							} );
-						}
-					};
-				}
-
-				// Create the abort callback
-				callback = callback( "abort" );
-
-				try {
-
-					// Do send the request (this may raise an exception)
-					xhr.send( options.hasContent && options.data || null );
-				} catch ( e ) {
-
-					// #14683: Only rethrow if this hasn't been notified as an error yet
-					if ( callback ) {
-						throw e;
-					}
-				}
-			},
-
-			abort: function() {
-				if ( callback ) {
-					callback();
-				}
-			}
-		};
-	}
-} );
-
-
-
-
-// Prevent auto-execution of scripts when no explicit dataType was provided (See gh-2432)
-jQuery.ajaxPrefilter( function( s ) {
-	if ( s.crossDomain ) {
-		s.contents.script = false;
-	}
-} );
-
-// Install script dataType
-jQuery.ajaxSetup( {
-	accepts: {
-		script: "text/javascript, application/javascript, " +
-			"application/ecmascript, application/x-ecmascript"
-	},
-	contents: {
-		script: /\b(?:java|ecma)script\b/
-	},
-	converters: {
-		"text script": function( text ) {
-			jQuery.globalEval( text );
-			return text;
-		}
-	}
-} );
-
-// Handle cache's special case and crossDomain
-jQuery.ajaxPrefilter( "script", function( s ) {
-	if ( s.cache === undefined ) {
-		s.cache = false;
-	}
-	if ( s.crossDomain ) {
-		s.type = "GET";
-	}
-} );
-
-// Bind script tag hack transport
-jQuery.ajaxTransport( "script", function( s ) {
-
-	// This transport only deals with cross domain or forced-by-attrs requests
-	if ( s.crossDomain || s.scriptAttrs ) {
-		var script, callback;
-		return {
-			send: function( _, complete ) {
-				script = jQuery( "<script>" )
-					.attr( s.scriptAttrs || {} )
-					.prop( { charset: s.scriptCharset, src: s.url } )
-					.on( "load error", callback = function( evt ) {
-						script.remove();
-						callback = null;
-						if ( evt ) {
-							complete( evt.type === "error" ? 404 : 200, evt.type );
-						}
-					} );
-
-				// Use native DOM manipulation to avoid our domManip AJAX trickery
-				document.head.appendChild( script[ 0 ] );
-			},
-			abort: function() {
-				if ( callback ) {
-					callback();
-				}
-			}
-		};
-	}
-} );
-
-
-
-
-var oldCallbacks = [],
-	rjsonp = /(=)\?(?=&|$)|\?\?/;
-
-// Default jsonp settings
-jQuery.ajaxSetup( {
-	jsonp: "callback",
-	jsonpCallback: function() {
-		var callback = oldCallbacks.pop() || ( jQuery.expando + "_" + ( nonce.guid++ ) );
-		this[ callback ] = true;
-		return callback;
-	}
-} );
-
-// Detect, normalize options and install callbacks for jsonp requests
-jQuery.ajaxPrefilter( "json jsonp", function( s, originalSettings, jqXHR ) {
-
-	var callbackName, overwritten, responseContainer,
-		jsonProp = s.jsonp !== false && ( rjsonp.test( s.url ) ?
-			"url" :
-			typeof s.data === "string" &&
-				( s.contentType || "" )
-					.indexOf( "application/x-www-form-urlencoded" ) === 0 &&
-				rjsonp.test( s.data ) && "data"
-		);
-
-	// Handle iff the expected data type is "jsonp" or we have a parameter to set
-	if ( jsonProp || s.dataTypes[ 0 ] === "jsonp" ) {
-
-		// Get callback name, remembering preexisting value associated with it
-		callbackName = s.jsonpCallback = isFunction( s.jsonpCallback ) ?
-			s.jsonpCallback() :
-			s.jsonpCallback;
-
-		// Insert callback into url or form data
-		if ( jsonProp ) {
-			s[ jsonProp ] = s[ jsonProp ].replace( rjsonp, "$1" + callbackName );
-		} else if ( s.jsonp !== false ) {
-			s.url += ( rquery.test( s.url ) ? "&" : "?" ) + s.jsonp + "=" + callbackName;
-		}
-
-		// Use data converter to retrieve json after script execution
-		s.converters[ "script json" ] = function() {
-			if ( !responseContainer ) {
-				jQuery.error( callbackName + " was not called" );
-			}
-			return responseContainer[ 0 ];
-		};
-
-		// Force json dataType
-		s.dataTypes[ 0 ] = "json";
-
-		// Install callback
-		overwritten = window[ callbackName ];
-		window[ callbackName ] = function() {
-			responseContainer = arguments;
-		};
-
-		// Clean-up function (fires after converters)
-		jqXHR.always( function() {
-
-			// If previous value didn't exist - remove it
-			if ( overwritten === undefined ) {
-				jQuery( window ).removeProp( callbackName );
-
-			// Otherwise restore preexisting value
-			} else {
-				window[ callbackName ] = overwritten;
-			}
-
-			// Save back as free
-			if ( s[ callbackName ] ) {
-
-				// Make sure that re-using the options doesn't screw things around
-				s.jsonpCallback = originalSettings.jsonpCallback;
-
-				// Save the callback name for future use
-				oldCallbacks.push( callbackName );
-			}
-
-			// Call if it was a function and we have a response
-			if ( responseContainer && isFunction( overwritten ) ) {
-				overwritten( responseContainer[ 0 ] );
-			}
-
-			responseContainer = overwritten = undefined;
-		} );
-
-		// Delegate to script
-		return "script";
-	}
-} );
-
-
-
-
-// Support: Safari 8 only
-// In Safari 8 documents created via document.implementation.createHTMLDocument
-// collapse sibling forms: the second one becomes a child of the first one.
-// Because of that, this security measure has to be disabled in Safari 8.
-// https://bugs.webkit.org/show_bug.cgi?id=137337
-support.createHTMLDocument = ( function() {
-	var body = document.implementation.createHTMLDocument( "" ).body;
-	body.innerHTML = "<form></form><form></form>";
-	return body.childNodes.length === 2;
-} )();
-
-
-// Argument "data" should be string of html
-// context (optional): If specified, the fragment will be created in this context,
-// defaults to document
-// keepScripts (optional): If true, will include scripts passed in the html string
-jQuery.parseHTML = function( data, context, keepScripts ) {
-	if ( typeof data !== "string" ) {
-		return [];
-	}
-	if ( typeof context === "boolean" ) {
-		keepScripts = context;
-		context = false;
-	}
-
-	var base, parsed, scripts;
-
-	if ( !context ) {
-
-		// Stop scripts or inline event handlers from being executed immediately
-		// by using document.implementation
-		if ( support.createHTMLDocument ) {
-			context = document.implementation.createHTMLDocument( "" );
-
-			// Set the base href for the created document
-			// so any parsed elements with URLs
-			// are based on the document's URL (gh-2965)
-			base = context.createElement( "base" );
-			base.href = document.location.href;
-			context.head.appendChild( base );
-		} else {
-			context = document;
-		}
-	}
-
-	parsed = rsingleTag.exec( data );
-	scripts = !keepScripts && [];
-
-	// Single tag
-	if ( parsed ) {
-		return [ context.createElement( parsed[ 1 ] ) ];
-	}
-
-	parsed = buildFragment( [ data ], context, scripts );
-
-	if ( scripts && scripts.length ) {
-		jQuery( scripts ).remove();
-	}
-
-	return jQuery.merge( [], parsed.childNodes );
-};
-
-
-/**
- * Load a url into a page
- */
-jQuery.fn.load = function( url, params, callback ) {
-	var selector, type, response,
-		self = this,
-		off = url.indexOf( " " );
-
-	if ( off > -1 ) {
-		selector = stripAndCollapse( url.slice( off ) );
-		url = url.slice( 0, off );
-	}
-
-	// If it's a function
-	if ( isFunction( params ) ) {
-
-		// We assume that it's the callback
-		callback = params;
-		params = undefined;
-
-	// Otherwise, build a param string
-	} else if ( params && typeof params === "object" ) {
-		type = "POST";
-	}
-
-	// If we have elements to modify, make the request
-	if ( self.length > 0 ) {
-		jQuery.ajax( {
-			url: url,
-
-			// If "type" variable is undefined, then "GET" method will be used.
-			// Make value of this field explicit since
-			// user can override it through ajaxSetup method
-			type: type || "GET",
-			dataType: "html",
-			data: params
-		} ).done( function( responseText ) {
-
-			// Save response for use in complete callback
-			response = arguments;
-
-			self.html( selector ?
-
-				// If a selector was specified, locate the right elements in a dummy div
-				// Exclude scripts to avoid IE 'Permission Denied' errors
-				jQuery( "<div>" ).append( jQuery.parseHTML( responseText ) ).find( selector ) :
-
-				// Otherwise use the full result
-				responseText );
-
-		// If the request succeeds, this function gets "data", "status", "jqXHR"
-		// but they are ignored because response was set above.
-		// If it fails, this function gets "jqXHR", "status", "error"
-		} ).always( callback && function( jqXHR, status ) {
-			self.each( function() {
-				callback.apply( this, response || [ jqXHR.responseText, status, jqXHR ] );
-			} );
-		} );
-	}
-
-	return this;
-};
-
-
-
-
-jQuery.expr.pseudos.animated = function( elem ) {
-	return jQuery.grep( jQuery.timers, function( fn ) {
-		return elem === fn.elem;
-	} ).length;
-};
-
-
-
-
-jQuery.offset = {
-	setOffset: function( elem, options, i ) {
-		var curPosition, curLeft, curCSSTop, curTop, curOffset, curCSSLeft, calculatePosition,
-			position = jQuery.css( elem, "position" ),
-			curElem = jQuery( elem ),
-			props = {};
-
-		// Set position first, in-case top/left are set even on static elem
-		if ( position === "static" ) {
-			elem.style.position = "relative";
-		}
-
-		curOffset = curElem.offset();
-		curCSSTop = jQuery.css( elem, "top" );
-		curCSSLeft = jQuery.css( elem, "left" );
-		calculatePosition = ( position === "absolute" || position === "fixed" ) &&
-			( curCSSTop + curCSSLeft ).indexOf( "auto" ) > -1;
-
-		// Need to be able to calculate position if either
-		// top or left is auto and position is either absolute or fixed
-		if ( calculatePosition ) {
-			curPosition = curElem.position();
-			curTop = curPosition.top;
-			curLeft = curPosition.left;
-
-		} else {
-			curTop = parseFloat( curCSSTop ) || 0;
-			curLeft = parseFloat( curCSSLeft ) || 0;
-		}
-
-		if ( isFunction( options ) ) {
-
-			// Use jQuery.extend here to allow modification of coordinates argument (gh-1848)
-			options = options.call( elem, i, jQuery.extend( {}, curOffset ) );
-		}
-
-		if ( options.top != null ) {
-			props.top = ( options.top - curOffset.top ) + curTop;
-		}
-		if ( options.left != null ) {
-			props.left = ( options.left - curOffset.left ) + curLeft;
-		}
-
-		if ( "using" in options ) {
-			options.using.call( elem, props );
-
-		} else {
-			if ( typeof props.top === "number" ) {
-				props.top += "px";
-			}
-			if ( typeof props.left === "number" ) {
-				props.left += "px";
-			}
-			curElem.css( props );
-		}
-	}
-};
-
-jQuery.fn.extend( {
-
-	// offset() relates an element's border box to the document origin
-	offset: function( options ) {
-
-		// Preserve chaining for setter
-		if ( arguments.length ) {
-			return options === undefined ?
-				this :
-				this.each( function( i ) {
-					jQuery.offset.setOffset( this, options, i );
-				} );
-		}
-
-		var rect, win,
-			elem = this[ 0 ];
-
-		if ( !elem ) {
-			return;
-		}
-
-		// Return zeros for disconnected and hidden (display: none) elements (gh-2310)
-		// Support: IE <=11 only
-		// Running getBoundingClientRect on a
-		// disconnected node in IE throws an error
-		if ( !elem.getClientRects().length ) {
-			return { top: 0, left: 0 };
-		}
-
-		// Get document-relative position by adding viewport scroll to viewport-relative gBCR
-		rect = elem.getBoundingClientRect();
-		win = elem.ownerDocument.defaultView;
-		return {
-			top: rect.top + win.pageYOffset,
-			left: rect.left + win.pageXOffset
-		};
-	},
-
-	// position() relates an element's margin box to its offset parent's padding box
-	// This corresponds to the behavior of CSS absolute positioning
-	position: function() {
-		if ( !this[ 0 ] ) {
-			return;
-		}
-
-		var offsetParent, offset, doc,
-			elem = this[ 0 ],
-			parentOffset = { top: 0, left: 0 };
-
-		// position:fixed elements are offset from the viewport, which itself always has zero offset
-		if ( jQuery.css( elem, "position" ) === "fixed" ) {
-
-			// Assume position:fixed implies availability of getBoundingClientRect
-			offset = elem.getBoundingClientRect();
-
-		} else {
-			offset = this.offset();
-
-			// Account for the *real* offset parent, which can be the document or its root element
-			// when a statically positioned element is identified
-			doc = elem.ownerDocument;
-			offsetParent = elem.offsetParent || doc.documentElement;
-			while ( offsetParent &&
-				( offsetParent === doc.body || offsetParent === doc.documentElement ) &&
-				jQuery.css( offsetParent, "position" ) === "static" ) {
-
-				offsetParent = offsetParent.parentNode;
-			}
-			if ( offsetParent && offsetParent !== elem && offsetParent.nodeType === 1 ) {
-
-				// Incorporate borders into its offset, since they are outside its content origin
-				parentOffset = jQuery( offsetParent ).offset();
-				parentOffset.top += jQuery.css( offsetParent, "borderTopWidth", true );
-				parentOffset.left += jQuery.css( offsetParent, "borderLeftWidth", true );
-			}
-		}
-
-		// Subtract parent offsets and element margins
-		return {
-			top: offset.top - parentOffset.top - jQuery.css( elem, "marginTop", true ),
-			left: offset.left - parentOffset.left - jQuery.css( elem, "marginLeft", true )
-		};
-	},
-
-	// This method will return documentElement in the following cases:
-	// 1) For the element inside the iframe without offsetParent, this method will return
-	//    documentElement of the parent window
-	// 2) For the hidden or detached element
-	// 3) For body or html element, i.e. in case of the html node - it will return itself
-	//
-	// but those exceptions were never presented as a real life use-cases
-	// and might be considered as more preferable results.
-	//
-	// This logic, however, is not guaranteed and can change at any point in the future
-	offsetParent: function() {
-		return this.map( function() {
-			var offsetParent = this.offsetParent;
-
-			while ( offsetParent && jQuery.css( offsetParent, "position" ) === "static" ) {
-				offsetParent = offsetParent.offsetParent;
-			}
-
-			return offsetParent || documentElement;
-		} );
-	}
-} );
-
-// Create scrollLeft and scrollTop methods
-jQuery.each( { scrollLeft: "pageXOffset", scrollTop: "pageYOffset" }, function( method, prop ) {
-	var top = "pageYOffset" === prop;
-
-	jQuery.fn[ method ] = function( val ) {
-		return access( this, function( elem, method, val ) {
-
-			// Coalesce documents and windows
-			var win;
-			if ( isWindow( elem ) ) {
-				win = elem;
-			} else if ( elem.nodeType === 9 ) {
-				win = elem.defaultView;
-			}
-
-			if ( val === undefined ) {
-				return win ? win[ prop ] : elem[ method ];
-			}
-
-			if ( win ) {
-				win.scrollTo(
-					!top ? val : win.pageXOffset,
-					top ? val : win.pageYOffset
-				);
-
-			} else {
-				elem[ method ] = val;
-			}
-		}, method, val, arguments.length );
-	};
-} );
-
-// Support: Safari <=7 - 9.1, Chrome <=37 - 49
-// Add the top/left cssHooks using jQuery.fn.position
-// Webkit bug: https://bugs.webkit.org/show_bug.cgi?id=29084
-// Blink bug: https://bugs.chromium.org/p/chromium/issues/detail?id=589347
-// getComputedStyle returns percent when specified for top/left/bottom/right;
-// rather than make the css module depend on the offset module, just check for it here
-jQuery.each( [ "top", "left" ], function( _i, prop ) {
-	jQuery.cssHooks[ prop ] = addGetHookIf( support.pixelPosition,
-		function( elem, computed ) {
-			if ( computed ) {
-				computed = curCSS( elem, prop );
-
-				// If curCSS returns percentage, fallback to offset
-				return rnumnonpx.test( computed ) ?
-					jQuery( elem ).position()[ prop ] + "px" :
-					computed;
-			}
-		}
-	);
-} );
-
-
-// Create innerHeight, innerWidth, height, width, outerHeight and outerWidth methods
-jQuery.each( { Height: "height", Width: "width" }, function( name, type ) {
-	jQuery.each( { padding: "inner" + name, content: type, "": "outer" + name },
-		function( defaultExtra, funcName ) {
-
-		// Margin is only for outerHeight, outerWidth
-		jQuery.fn[ funcName ] = function( margin, value ) {
-			var chainable = arguments.length && ( defaultExtra || typeof margin !== "boolean" ),
-				extra = defaultExtra || ( margin === true || value === true ? "margin" : "border" );
-
-			return access( this, function( elem, type, value ) {
-				var doc;
-
-				if ( isWindow( elem ) ) {
-
-					// $( window ).outerWidth/Height return w/h including scrollbars (gh-1729)
-					return funcName.indexOf( "outer" ) === 0 ?
-						elem[ "inner" + name ] :
-						elem.document.documentElement[ "client" + name ];
-				}
-
-				// Get document width or height
-				if ( elem.nodeType === 9 ) {
-					doc = elem.documentElement;
-
-					// Either scroll[Width/Height] or offset[Width/Height] or client[Width/Height],
-					// whichever is greatest
-					return Math.max(
-						elem.body[ "scroll" + name ], doc[ "scroll" + name ],
-						elem.body[ "offset" + name ], doc[ "offset" + name ],
-						doc[ "client" + name ]
-					);
-				}
-
-				return value === undefined ?
-
-					// Get width or height on the element, requesting but not forcing parseFloat
-					jQuery.css( elem, type, extra ) :
-
-					// Set width or height on the element
-					jQuery.style( elem, type, value, extra );
-			}, type, chainable ? margin : undefined, chainable );
-		};
-	} );
-} );
-
-
-jQuery.each( [
-	"ajaxStart",
-	"ajaxStop",
-	"ajaxComplete",
-	"ajaxError",
-	"ajaxSuccess",
-	"ajaxSend"
-], function( _i, type ) {
-	jQuery.fn[ type ] = function( fn ) {
-		return this.on( type, fn );
-	};
-} );
-
-
-
-
-jQuery.fn.extend( {
-
-	bind: function( types, data, fn ) {
-		return this.on( types, null, data, fn );
-	},
-	unbind: function( types, fn ) {
-		return this.off( types, null, fn );
-	},
-
-	delegate: function( selector, types, data, fn ) {
-		return this.on( types, selector, data, fn );
-	},
-	undelegate: function( selector, types, fn ) {
-
-		// ( namespace ) or ( selector, types [, fn] )
-		return arguments.length === 1 ?
-			this.off( selector, "**" ) :
-			this.off( types, selector || "**", fn );
-	},
-
-	hover: function( fnOver, fnOut ) {
-		return this.mouseenter( fnOver ).mouseleave( fnOut || fnOver );
-	}
-} );
-
-jQuery.each( ( "blur focus focusin focusout resize scroll click dblclick " +
-	"mousedown mouseup mousemove mouseover mouseout mouseenter mouseleave " +
-	"change select submit keydown keypress keyup contextmenu" ).split( " " ),
-	function( _i, name ) {
-
-		// Handle event binding
-		jQuery.fn[ name ] = function( data, fn ) {
-			return arguments.length > 0 ?
-				this.on( name, null, data, fn ) :
-				this.trigger( name );
-		};
-	} );
-
-
-
-
-// Support: Android <=4.0 only
-// Make sure we trim BOM and NBSP
-var rtrim = /^[\s\uFEFF\xA0]+|[\s\uFEFF\xA0]+$/g;
-
-// Bind a function to a context, optionally partially applying any
-// arguments.
-// jQuery.proxy is deprecated to promote standards (specifically Function#bind)
-// However, it is not slated for removal any time soon
-jQuery.proxy = function( fn, context ) {
-	var tmp, args, proxy;
-
-	if ( typeof context === "string" ) {
-		tmp = fn[ context ];
-		context = fn;
-		fn = tmp;
-	}
-
-	// Quick check to determine if target is callable, in the spec
-	// this throws a TypeError, but we will just return undefined.
-	if ( !isFunction( fn ) ) {
-		return undefined;
-	}
-
-	// Simulated bind
-	args = slice.call( arguments, 2 );
-	proxy = function() {
-		return fn.apply( context || this, args.concat( slice.call( arguments ) ) );
-	};
-
-	// Set the guid of unique handler to the same of original handler, so it can be removed
-	proxy.guid = fn.guid = fn.guid || jQuery.guid++;
-
-	return proxy;
-};
-
-jQuery.holdReady = function( hold ) {
-	if ( hold ) {
-		jQuery.readyWait++;
-	} else {
-		jQuery.ready( true );
-	}
-};
-jQuery.isArray = Array.isArray;
-jQuery.parseJSON = JSON.parse;
-jQuery.nodeName = nodeName;
-jQuery.isFunction = isFunction;
-jQuery.isWindow = isWindow;
-jQuery.camelCase = camelCase;
-jQuery.type = toType;
-
-jQuery.now = Date.now;
-
-jQuery.isNumeric = function( obj ) {
-
-	// As of jQuery 3.0, isNumeric is limited to
-	// strings and numbers (primitives or objects)
-	// that can be coerced to finite numbers (gh-2662)
-	var type = jQuery.type( obj );
-	return ( type === "number" || type === "string" ) &&
-
-		// parseFloat NaNs numeric-cast false positives ("")
-		// ...but misinterprets leading-number strings, particularly hex literals ("0x...")
-		// subtraction forces infinities to NaN
-		!isNaN( obj - parseFloat( obj ) );
-};
-
-jQuery.trim = function( text ) {
-	return text == null ?
-		"" :
-		( text + "" ).replace( rtrim, "" );
-};
-
-
-
-// Register as a named AMD module, since jQuery can be concatenated with other
-// files that may use define, but not via a proper concatenation script that
-// understands anonymous AMD modules. A named AMD is safest and most robust
-// way to register. Lowercase jquery is used because AMD module names are
-// derived from file names, and jQuery is normally delivered in a lowercase
-// file name. Do this after creating the global so that if an AMD module wants
-// to call noConflict to hide this version of jQuery, it will work.
-
-// Note that for maximum portability, libraries that are not jQuery should
-// declare themselves as anonymous modules, and avoid setting a global if an
-// AMD loader is present. jQuery is a special case. For more information, see
-// https://github.com/jrburke/requirejs/wiki/Updating-existing-libraries#wiki-anon
-
-if ( typeof define === "function" && define.amd ) {
-	define( "jquery", [], function() {
-		return jQuery;
-	} );
-}
-
-
-
-
-var
-
-	// Map over jQuery in case of overwrite
-	_jQuery = window.jQuery,
-
-	// Map over the $ in case of overwrite
-	_$ = window.$;
-
-jQuery.noConflict = function( deep ) {
-	if ( window.$ === jQuery ) {
-		window.$ = _$;
-	}
-
-	if ( deep && window.jQuery === jQuery ) {
-		window.jQuery = _jQuery;
-	}
-
-	return jQuery;
-};
-
-// Expose jQuery and $ identifiers, even in AMD
-// (#7102#comment:10, https://github.com/jquery/jquery/pull/557)
-// and CommonJS for browser emulators (#13566)
-if ( typeof noGlobal === "undefined" ) {
-	window.jQuery = window.$ = jQuery;
-}
-
-
-
-
-return jQuery;
-} );
diff --git a/_static/jquery.js b/_static/jquery.js
deleted file mode 100644
index b0614034a..000000000
--- a/_static/jquery.js
+++ /dev/null
@@ -1,2 +0,0 @@
-/*! jQuery v3.5.1 | (c) JS Foundation and other contributors | jquery.org/license */
-!function(e,t){"use strict";"object"==typeof module&&"object"==typeof module.exports?module.exports=e.document?t(e,!0):function(e){if(!e.document)throw new Error("jQuery requires a window with a document");return t(e)}:t(e)}("undefined"!=typeof window?window:this,function(C,e){"use strict";var t=[],r=Object.getPrototypeOf,s=t.slice,g=t.flat?function(e){return t.flat.call(e)}:function(e){return t.concat.apply([],e)},u=t.push,i=t.indexOf,n={},o=n.toString,v=n.hasOwnProperty,a=v.toString,l=a.call(Object),y={},m=function(e){return"function"==typeof e&&"number"!=typeof e.nodeType},x=function(e){return null!=e&&e===e.window},E=C.document,c={type:!0,src:!0,nonce:!0,noModule:!0};function b(e,t,n){var r,i,o=(n=n||E).createElement("script");if(o.text=e,t)for(r in c)(i=t[r]||t.getAttribute&&t.getAttribute(r))&&o.setAttribute(r,i);n.head.appendChild(o).parentNode.removeChild(o)}function w(e){return null==e?e+"":"object"==typeof e||"function"==typeof e?n[o.call(e)]||"object":typeof e}var f="3.5.1",S=function(e,t){return new S.fn.init(e,t)};function p(e){var t=!!e&&"length"in e&&e.length,n=w(e);return!m(e)&&!x(e)&&("array"===n||0===t||"number"==typeof t&&0<t&&t-1 in e)}S.fn=S.prototype={jquery:f,constructor:S,length:0,toArray:function(){return s.call(this)},get:function(e){return null==e?s.call(this):e<0?this[e+this.length]:this[e]},pushStack:function(e){var t=S.merge(this.constructor(),e);return t.prevObject=this,t},each:function(e){return S.each(this,e)},map:function(n){return this.pushStack(S.map(this,function(e,t){return n.call(e,t,e)}))},slice:function(){return this.pushStack(s.apply(this,arguments))},first:function(){return this.eq(0)},last:function(){return this.eq(-1)},even:function(){return this.pushStack(S.grep(this,function(e,t){return(t+1)%2}))},odd:function(){return this.pushStack(S.grep(this,function(e,t){return t%2}))},eq:function(e){var t=this.length,n=+e+(e<0?t:0);return this.pushStack(0<=n&&n<t?[this[n]]:[])},end:function(){return this.prevObject||this.constructor()},push:u,sort:t.sort,splice:t.splice},S.extend=S.fn.extend=function(){var e,t,n,r,i,o,a=arguments[0]||{},s=1,u=arguments.length,l=!1;for("boolean"==typeof a&&(l=a,a=arguments[s]||{},s++),"object"==typeof a||m(a)||(a={}),s===u&&(a=this,s--);s<u;s++)if(null!=(e=arguments[s]))for(t in e)r=e[t],"__proto__"!==t&&a!==r&&(l&&r&&(S.isPlainObject(r)||(i=Array.isArray(r)))?(n=a[t],o=i&&!Array.isArray(n)?[]:i||S.isPlainObject(n)?n:{},i=!1,a[t]=S.extend(l,o,r)):void 0!==r&&(a[t]=r));return a},S.extend({expando:"jQuery"+(f+Math.random()).replace(/\D/g,""),isReady:!0,error:function(e){throw new Error(e)},noop:function(){},isPlainObject:function(e){var t,n;return!(!e||"[object Object]"!==o.call(e))&&(!(t=r(e))||"function"==typeof(n=v.call(t,"constructor")&&t.constructor)&&a.call(n)===l)},isEmptyObject:function(e){var t;for(t in e)return!1;return!0},globalEval:function(e,t,n){b(e,{nonce:t&&t.nonce},n)},each:function(e,t){var n,r=0;if(p(e)){for(n=e.length;r<n;r++)if(!1===t.call(e[r],r,e[r]))break}else for(r in e)if(!1===t.call(e[r],r,e[r]))break;return e},makeArray:function(e,t){var n=t||[];return null!=e&&(p(Object(e))?S.merge(n,"string"==typeof e?[e]:e):u.call(n,e)),n},inArray:function(e,t,n){return null==t?-1:i.call(t,e,n)},merge:function(e,t){for(var n=+t.length,r=0,i=e.length;r<n;r++)e[i++]=t[r];return e.length=i,e},grep:function(e,t,n){for(var r=[],i=0,o=e.length,a=!n;i<o;i++)!t(e[i],i)!==a&&r.push(e[i]);return r},map:function(e,t,n){var r,i,o=0,a=[];if(p(e))for(r=e.length;o<r;o++)null!=(i=t(e[o],o,n))&&a.push(i);else for(o in e)null!=(i=t(e[o],o,n))&&a.push(i);return g(a)},guid:1,support:y}),"function"==typeof Symbol&&(S.fn[Symbol.iterator]=t[Symbol.iterator]),S.each("Boolean Number String Function Array Date RegExp Object Error Symbol".split(" "),function(e,t){n["[object "+t+"]"]=t.toLowerCase()});var d=function(n){var e,d,b,o,i,h,f,g,w,u,l,T,C,a,E,v,s,c,y,S="sizzle"+1*new Date,p=n.document,k=0,r=0,m=ue(),x=ue(),A=ue(),N=ue(),D=function(e,t){return e===t&&(l=!0),0},j={}.hasOwnProperty,t=[],q=t.pop,L=t.push,H=t.push,O=t.slice,P=function(e,t){for(var n=0,r=e.length;n<r;n++)if(e[n]===t)return n;return-1},R="checked|selected|async|autofocus|autoplay|controls|defer|disabled|hidden|ismap|loop|multiple|open|readonly|required|scoped",M="[\\x20\\t\\r\\n\\f]",I="(?:\\\\[\\da-fA-F]{1,6}"+M+"?|\\\\[^\\r\\n\\f]|[\\w-]|[^\0-\\x7f])+",W="\\["+M+"*("+I+")(?:"+M+"*([*^$|!~]?=)"+M+"*(?:'((?:\\\\.|[^\\\\'])*)'|\"((?:\\\\.|[^\\\\\"])*)\"|("+I+"))|)"+M+"*\\]",F=":("+I+")(?:\\((('((?:\\\\.|[^\\\\'])*)'|\"((?:\\\\.|[^\\\\\"])*)\")|((?:\\\\.|[^\\\\()[\\]]|"+W+")*)|.*)\\)|)",B=new RegExp(M+"+","g"),$=new RegExp("^"+M+"+|((?:^|[^\\\\])(?:\\\\.)*)"+M+"+$","g"),_=new RegExp("^"+M+"*,"+M+"*"),z=new RegExp("^"+M+"*([>+~]|"+M+")"+M+"*"),U=new RegExp(M+"|>"),X=new RegExp(F),V=new RegExp("^"+I+"$"),G={ID:new RegExp("^#("+I+")"),CLASS:new RegExp("^\\.("+I+")"),TAG:new RegExp("^("+I+"|[*])"),ATTR:new RegExp("^"+W),PSEUDO:new RegExp("^"+F),CHILD:new RegExp("^:(only|first|last|nth|nth-last)-(child|of-type)(?:\\("+M+"*(even|odd|(([+-]|)(\\d*)n|)"+M+"*(?:([+-]|)"+M+"*(\\d+)|))"+M+"*\\)|)","i"),bool:new RegExp("^(?:"+R+")$","i"),needsContext:new RegExp("^"+M+"*[>+~]|:(even|odd|eq|gt|lt|nth|first|last)(?:\\("+M+"*((?:-\\d)?\\d*)"+M+"*\\)|)(?=[^-]|$)","i")},Y=/HTML$/i,Q=/^(?:input|select|textarea|button)$/i,J=/^h\d$/i,K=/^[^{]+\{\s*\[native \w/,Z=/^(?:#([\w-]+)|(\w+)|\.([\w-]+))$/,ee=/[+~]/,te=new RegExp("\\\\[\\da-fA-F]{1,6}"+M+"?|\\\\([^\\r\\n\\f])","g"),ne=function(e,t){var n="0x"+e.slice(1)-65536;return t||(n<0?String.fromCharCode(n+65536):String.fromCharCode(n>>10|55296,1023&n|56320))},re=/([\0-\x1f\x7f]|^-?\d)|^-$|[^\0-\x1f\x7f-\uFFFF\w-]/g,ie=function(e,t){return t?"\0"===e?"\ufffd":e.slice(0,-1)+"\\"+e.charCodeAt(e.length-1).toString(16)+" ":"\\"+e},oe=function(){T()},ae=be(function(e){return!0===e.disabled&&"fieldset"===e.nodeName.toLowerCase()},{dir:"parentNode",next:"legend"});try{H.apply(t=O.call(p.childNodes),p.childNodes),t[p.childNodes.length].nodeType}catch(e){H={apply:t.length?function(e,t){L.apply(e,O.call(t))}:function(e,t){var n=e.length,r=0;while(e[n++]=t[r++]);e.length=n-1}}}function se(t,e,n,r){var i,o,a,s,u,l,c,f=e&&e.ownerDocument,p=e?e.nodeType:9;if(n=n||[],"string"!=typeof t||!t||1!==p&&9!==p&&11!==p)return n;if(!r&&(T(e),e=e||C,E)){if(11!==p&&(u=Z.exec(t)))if(i=u[1]){if(9===p){if(!(a=e.getElementById(i)))return n;if(a.id===i)return n.push(a),n}else if(f&&(a=f.getElementById(i))&&y(e,a)&&a.id===i)return n.push(a),n}else{if(u[2])return H.apply(n,e.getElementsByTagName(t)),n;if((i=u[3])&&d.getElementsByClassName&&e.getElementsByClassName)return H.apply(n,e.getElementsByClassName(i)),n}if(d.qsa&&!N[t+" "]&&(!v||!v.test(t))&&(1!==p||"object"!==e.nodeName.toLowerCase())){if(c=t,f=e,1===p&&(U.test(t)||z.test(t))){(f=ee.test(t)&&ye(e.parentNode)||e)===e&&d.scope||((s=e.getAttribute("id"))?s=s.replace(re,ie):e.setAttribute("id",s=S)),o=(l=h(t)).length;while(o--)l[o]=(s?"#"+s:":scope")+" "+xe(l[o]);c=l.join(",")}try{return H.apply(n,f.querySelectorAll(c)),n}catch(e){N(t,!0)}finally{s===S&&e.removeAttribute("id")}}}return g(t.replace($,"$1"),e,n,r)}function ue(){var r=[];return function e(t,n){return r.push(t+" ")>b.cacheLength&&delete e[r.shift()],e[t+" "]=n}}function le(e){return e[S]=!0,e}function ce(e){var t=C.createElement("fieldset");try{return!!e(t)}catch(e){return!1}finally{t.parentNode&&t.parentNode.removeChild(t),t=null}}function fe(e,t){var n=e.split("|"),r=n.length;while(r--)b.attrHandle[n[r]]=t}function pe(e,t){var n=t&&e,r=n&&1===e.nodeType&&1===t.nodeType&&e.sourceIndex-t.sourceIndex;if(r)return r;if(n)while(n=n.nextSibling)if(n===t)return-1;return e?1:-1}function de(t){return function(e){return"input"===e.nodeName.toLowerCase()&&e.type===t}}function he(n){return function(e){var t=e.nodeName.toLowerCase();return("input"===t||"button"===t)&&e.type===n}}function ge(t){return function(e){return"form"in e?e.parentNode&&!1===e.disabled?"label"in e?"label"in e.parentNode?e.parentNode.disabled===t:e.disabled===t:e.isDisabled===t||e.isDisabled!==!t&&ae(e)===t:e.disabled===t:"label"in e&&e.disabled===t}}function ve(a){return le(function(o){return o=+o,le(function(e,t){var n,r=a([],e.length,o),i=r.length;while(i--)e[n=r[i]]&&(e[n]=!(t[n]=e[n]))})})}function ye(e){return e&&"undefined"!=typeof e.getElementsByTagName&&e}for(e in d=se.support={},i=se.isXML=function(e){var t=e.namespaceURI,n=(e.ownerDocument||e).documentElement;return!Y.test(t||n&&n.nodeName||"HTML")},T=se.setDocument=function(e){var t,n,r=e?e.ownerDocument||e:p;return r!=C&&9===r.nodeType&&r.documentElement&&(a=(C=r).documentElement,E=!i(C),p!=C&&(n=C.defaultView)&&n.top!==n&&(n.addEventListener?n.addEventListener("unload",oe,!1):n.attachEvent&&n.attachEvent("onunload",oe)),d.scope=ce(function(e){return a.appendChild(e).appendChild(C.createElement("div")),"undefined"!=typeof e.querySelectorAll&&!e.querySelectorAll(":scope fieldset div").length}),d.attributes=ce(function(e){return e.className="i",!e.getAttribute("className")}),d.getElementsByTagName=ce(function(e){return e.appendChild(C.createComment("")),!e.getElementsByTagName("*").length}),d.getElementsByClassName=K.test(C.getElementsByClassName),d.getById=ce(function(e){return a.appendChild(e).id=S,!C.getElementsByName||!C.getElementsByName(S).length}),d.getById?(b.filter.ID=function(e){var t=e.replace(te,ne);return function(e){return e.getAttribute("id")===t}},b.find.ID=function(e,t){if("undefined"!=typeof t.getElementById&&E){var n=t.getElementById(e);return n?[n]:[]}}):(b.filter.ID=function(e){var n=e.replace(te,ne);return function(e){var t="undefined"!=typeof e.getAttributeNode&&e.getAttributeNode("id");return t&&t.value===n}},b.find.ID=function(e,t){if("undefined"!=typeof t.getElementById&&E){var n,r,i,o=t.getElementById(e);if(o){if((n=o.getAttributeNode("id"))&&n.value===e)return[o];i=t.getElementsByName(e),r=0;while(o=i[r++])if((n=o.getAttributeNode("id"))&&n.value===e)return[o]}return[]}}),b.find.TAG=d.getElementsByTagName?function(e,t){return"undefined"!=typeof t.getElementsByTagName?t.getElementsByTagName(e):d.qsa?t.querySelectorAll(e):void 0}:function(e,t){var n,r=[],i=0,o=t.getElementsByTagName(e);if("*"===e){while(n=o[i++])1===n.nodeType&&r.push(n);return r}return o},b.find.CLASS=d.getElementsByClassName&&function(e,t){if("undefined"!=typeof t.getElementsByClassName&&E)return t.getElementsByClassName(e)},s=[],v=[],(d.qsa=K.test(C.querySelectorAll))&&(ce(function(e){var t;a.appendChild(e).innerHTML="<a id='"+S+"'></a><select id='"+S+"-\r\\' msallowcapture=''><option selected=''></option></select>",e.querySelectorAll("[msallowcapture^='']").length&&v.push("[*^$]="+M+"*(?:''|\"\")"),e.querySelectorAll("[selected]").length||v.push("\\["+M+"*(?:value|"+R+")"),e.querySelectorAll("[id~="+S+"-]").length||v.push("~="),(t=C.createElement("input")).setAttribute("name",""),e.appendChild(t),e.querySelectorAll("[name='']").length||v.push("\\["+M+"*name"+M+"*="+M+"*(?:''|\"\")"),e.querySelectorAll(":checked").length||v.push(":checked"),e.querySelectorAll("a#"+S+"+*").length||v.push(".#.+[+~]"),e.querySelectorAll("\\\f"),v.push("[\\r\\n\\f]")}),ce(function(e){e.innerHTML="<a href='' disabled='disabled'></a><select disabled='disabled'><option/></select>";var t=C.createElement("input");t.setAttribute("type","hidden"),e.appendChild(t).setAttribute("name","D"),e.querySelectorAll("[name=d]").length&&v.push("name"+M+"*[*^$|!~]?="),2!==e.querySelectorAll(":enabled").length&&v.push(":enabled",":disabled"),a.appendChild(e).disabled=!0,2!==e.querySelectorAll(":disabled").length&&v.push(":enabled",":disabled"),e.querySelectorAll("*,:x"),v.push(",.*:")})),(d.matchesSelector=K.test(c=a.matches||a.webkitMatchesSelector||a.mozMatchesSelector||a.oMatchesSelector||a.msMatchesSelector))&&ce(function(e){d.disconnectedMatch=c.call(e,"*"),c.call(e,"[s!='']:x"),s.push("!=",F)}),v=v.length&&new RegExp(v.join("|")),s=s.length&&new RegExp(s.join("|")),t=K.test(a.compareDocumentPosition),y=t||K.test(a.contains)?function(e,t){var n=9===e.nodeType?e.documentElement:e,r=t&&t.parentNode;return e===r||!(!r||1!==r.nodeType||!(n.contains?n.contains(r):e.compareDocumentPosition&&16&e.compareDocumentPosition(r)))}:function(e,t){if(t)while(t=t.parentNode)if(t===e)return!0;return!1},D=t?function(e,t){if(e===t)return l=!0,0;var n=!e.compareDocumentPosition-!t.compareDocumentPosition;return n||(1&(n=(e.ownerDocument||e)==(t.ownerDocument||t)?e.compareDocumentPosition(t):1)||!d.sortDetached&&t.compareDocumentPosition(e)===n?e==C||e.ownerDocument==p&&y(p,e)?-1:t==C||t.ownerDocument==p&&y(p,t)?1:u?P(u,e)-P(u,t):0:4&n?-1:1)}:function(e,t){if(e===t)return l=!0,0;var n,r=0,i=e.parentNode,o=t.parentNode,a=[e],s=[t];if(!i||!o)return e==C?-1:t==C?1:i?-1:o?1:u?P(u,e)-P(u,t):0;if(i===o)return pe(e,t);n=e;while(n=n.parentNode)a.unshift(n);n=t;while(n=n.parentNode)s.unshift(n);while(a[r]===s[r])r++;return r?pe(a[r],s[r]):a[r]==p?-1:s[r]==p?1:0}),C},se.matches=function(e,t){return se(e,null,null,t)},se.matchesSelector=function(e,t){if(T(e),d.matchesSelector&&E&&!N[t+" "]&&(!s||!s.test(t))&&(!v||!v.test(t)))try{var n=c.call(e,t);if(n||d.disconnectedMatch||e.document&&11!==e.document.nodeType)return n}catch(e){N(t,!0)}return 0<se(t,C,null,[e]).length},se.contains=function(e,t){return(e.ownerDocument||e)!=C&&T(e),y(e,t)},se.attr=function(e,t){(e.ownerDocument||e)!=C&&T(e);var n=b.attrHandle[t.toLowerCase()],r=n&&j.call(b.attrHandle,t.toLowerCase())?n(e,t,!E):void 0;return void 0!==r?r:d.attributes||!E?e.getAttribute(t):(r=e.getAttributeNode(t))&&r.specified?r.value:null},se.escape=function(e){return(e+"").replace(re,ie)},se.error=function(e){throw new Error("Syntax error, unrecognized expression: "+e)},se.uniqueSort=function(e){var t,n=[],r=0,i=0;if(l=!d.detectDuplicates,u=!d.sortStable&&e.slice(0),e.sort(D),l){while(t=e[i++])t===e[i]&&(r=n.push(i));while(r--)e.splice(n[r],1)}return u=null,e},o=se.getText=function(e){var t,n="",r=0,i=e.nodeType;if(i){if(1===i||9===i||11===i){if("string"==typeof e.textContent)return e.textContent;for(e=e.firstChild;e;e=e.nextSibling)n+=o(e)}else if(3===i||4===i)return e.nodeValue}else while(t=e[r++])n+=o(t);return n},(b=se.selectors={cacheLength:50,createPseudo:le,match:G,attrHandle:{},find:{},relative:{">":{dir:"parentNode",first:!0}," ":{dir:"parentNode"},"+":{dir:"previousSibling",first:!0},"~":{dir:"previousSibling"}},preFilter:{ATTR:function(e){return e[1]=e[1].replace(te,ne),e[3]=(e[3]||e[4]||e[5]||"").replace(te,ne),"~="===e[2]&&(e[3]=" "+e[3]+" "),e.slice(0,4)},CHILD:function(e){return e[1]=e[1].toLowerCase(),"nth"===e[1].slice(0,3)?(e[3]||se.error(e[0]),e[4]=+(e[4]?e[5]+(e[6]||1):2*("even"===e[3]||"odd"===e[3])),e[5]=+(e[7]+e[8]||"odd"===e[3])):e[3]&&se.error(e[0]),e},PSEUDO:function(e){var t,n=!e[6]&&e[2];return G.CHILD.test(e[0])?null:(e[3]?e[2]=e[4]||e[5]||"":n&&X.test(n)&&(t=h(n,!0))&&(t=n.indexOf(")",n.length-t)-n.length)&&(e[0]=e[0].slice(0,t),e[2]=n.slice(0,t)),e.slice(0,3))}},filter:{TAG:function(e){var t=e.replace(te,ne).toLowerCase();return"*"===e?function(){return!0}:function(e){return e.nodeName&&e.nodeName.toLowerCase()===t}},CLASS:function(e){var t=m[e+" "];return t||(t=new RegExp("(^|"+M+")"+e+"("+M+"|$)"))&&m(e,function(e){return t.test("string"==typeof e.className&&e.className||"undefined"!=typeof e.getAttribute&&e.getAttribute("class")||"")})},ATTR:function(n,r,i){return function(e){var t=se.attr(e,n);return null==t?"!="===r:!r||(t+="","="===r?t===i:"!="===r?t!==i:"^="===r?i&&0===t.indexOf(i):"*="===r?i&&-1<t.indexOf(i):"$="===r?i&&t.slice(-i.length)===i:"~="===r?-1<(" "+t.replace(B," ")+" ").indexOf(i):"|="===r&&(t===i||t.slice(0,i.length+1)===i+"-"))}},CHILD:function(h,e,t,g,v){var y="nth"!==h.slice(0,3),m="last"!==h.slice(-4),x="of-type"===e;return 1===g&&0===v?function(e){return!!e.parentNode}:function(e,t,n){var r,i,o,a,s,u,l=y!==m?"nextSibling":"previousSibling",c=e.parentNode,f=x&&e.nodeName.toLowerCase(),p=!n&&!x,d=!1;if(c){if(y){while(l){a=e;while(a=a[l])if(x?a.nodeName.toLowerCase()===f:1===a.nodeType)return!1;u=l="only"===h&&!u&&"nextSibling"}return!0}if(u=[m?c.firstChild:c.lastChild],m&&p){d=(s=(r=(i=(o=(a=c)[S]||(a[S]={}))[a.uniqueID]||(o[a.uniqueID]={}))[h]||[])[0]===k&&r[1])&&r[2],a=s&&c.childNodes[s];while(a=++s&&a&&a[l]||(d=s=0)||u.pop())if(1===a.nodeType&&++d&&a===e){i[h]=[k,s,d];break}}else if(p&&(d=s=(r=(i=(o=(a=e)[S]||(a[S]={}))[a.uniqueID]||(o[a.uniqueID]={}))[h]||[])[0]===k&&r[1]),!1===d)while(a=++s&&a&&a[l]||(d=s=0)||u.pop())if((x?a.nodeName.toLowerCase()===f:1===a.nodeType)&&++d&&(p&&((i=(o=a[S]||(a[S]={}))[a.uniqueID]||(o[a.uniqueID]={}))[h]=[k,d]),a===e))break;return(d-=v)===g||d%g==0&&0<=d/g}}},PSEUDO:function(e,o){var t,a=b.pseudos[e]||b.setFilters[e.toLowerCase()]||se.error("unsupported pseudo: "+e);return a[S]?a(o):1<a.length?(t=[e,e,"",o],b.setFilters.hasOwnProperty(e.toLowerCase())?le(function(e,t){var n,r=a(e,o),i=r.length;while(i--)e[n=P(e,r[i])]=!(t[n]=r[i])}):function(e){return a(e,0,t)}):a}},pseudos:{not:le(function(e){var r=[],i=[],s=f(e.replace($,"$1"));return s[S]?le(function(e,t,n,r){var i,o=s(e,null,r,[]),a=e.length;while(a--)(i=o[a])&&(e[a]=!(t[a]=i))}):function(e,t,n){return r[0]=e,s(r,null,n,i),r[0]=null,!i.pop()}}),has:le(function(t){return function(e){return 0<se(t,e).length}}),contains:le(function(t){return t=t.replace(te,ne),function(e){return-1<(e.textContent||o(e)).indexOf(t)}}),lang:le(function(n){return V.test(n||"")||se.error("unsupported lang: "+n),n=n.replace(te,ne).toLowerCase(),function(e){var t;do{if(t=E?e.lang:e.getAttribute("xml:lang")||e.getAttribute("lang"))return(t=t.toLowerCase())===n||0===t.indexOf(n+"-")}while((e=e.parentNode)&&1===e.nodeType);return!1}}),target:function(e){var t=n.location&&n.location.hash;return t&&t.slice(1)===e.id},root:function(e){return e===a},focus:function(e){return e===C.activeElement&&(!C.hasFocus||C.hasFocus())&&!!(e.type||e.href||~e.tabIndex)},enabled:ge(!1),disabled:ge(!0),checked:function(e){var t=e.nodeName.toLowerCase();return"input"===t&&!!e.checked||"option"===t&&!!e.selected},selected:function(e){return e.parentNode&&e.parentNode.selectedIndex,!0===e.selected},empty:function(e){for(e=e.firstChild;e;e=e.nextSibling)if(e.nodeType<6)return!1;return!0},parent:function(e){return!b.pseudos.empty(e)},header:function(e){return J.test(e.nodeName)},input:function(e){return Q.test(e.nodeName)},button:function(e){var t=e.nodeName.toLowerCase();return"input"===t&&"button"===e.type||"button"===t},text:function(e){var t;return"input"===e.nodeName.toLowerCase()&&"text"===e.type&&(null==(t=e.getAttribute("type"))||"text"===t.toLowerCase())},first:ve(function(){return[0]}),last:ve(function(e,t){return[t-1]}),eq:ve(function(e,t,n){return[n<0?n+t:n]}),even:ve(function(e,t){for(var n=0;n<t;n+=2)e.push(n);return e}),odd:ve(function(e,t){for(var n=1;n<t;n+=2)e.push(n);return e}),lt:ve(function(e,t,n){for(var r=n<0?n+t:t<n?t:n;0<=--r;)e.push(r);return e}),gt:ve(function(e,t,n){for(var r=n<0?n+t:n;++r<t;)e.push(r);return e})}}).pseudos.nth=b.pseudos.eq,{radio:!0,checkbox:!0,file:!0,password:!0,image:!0})b.pseudos[e]=de(e);for(e in{submit:!0,reset:!0})b.pseudos[e]=he(e);function me(){}function xe(e){for(var t=0,n=e.length,r="";t<n;t++)r+=e[t].value;return r}function be(s,e,t){var u=e.dir,l=e.next,c=l||u,f=t&&"parentNode"===c,p=r++;return e.first?function(e,t,n){while(e=e[u])if(1===e.nodeType||f)return s(e,t,n);return!1}:function(e,t,n){var r,i,o,a=[k,p];if(n){while(e=e[u])if((1===e.nodeType||f)&&s(e,t,n))return!0}else while(e=e[u])if(1===e.nodeType||f)if(i=(o=e[S]||(e[S]={}))[e.uniqueID]||(o[e.uniqueID]={}),l&&l===e.nodeName.toLowerCase())e=e[u]||e;else{if((r=i[c])&&r[0]===k&&r[1]===p)return a[2]=r[2];if((i[c]=a)[2]=s(e,t,n))return!0}return!1}}function we(i){return 1<i.length?function(e,t,n){var r=i.length;while(r--)if(!i[r](e,t,n))return!1;return!0}:i[0]}function Te(e,t,n,r,i){for(var o,a=[],s=0,u=e.length,l=null!=t;s<u;s++)(o=e[s])&&(n&&!n(o,r,i)||(a.push(o),l&&t.push(s)));return a}function Ce(d,h,g,v,y,e){return v&&!v[S]&&(v=Ce(v)),y&&!y[S]&&(y=Ce(y,e)),le(function(e,t,n,r){var i,o,a,s=[],u=[],l=t.length,c=e||function(e,t,n){for(var r=0,i=t.length;r<i;r++)se(e,t[r],n);return n}(h||"*",n.nodeType?[n]:n,[]),f=!d||!e&&h?c:Te(c,s,d,n,r),p=g?y||(e?d:l||v)?[]:t:f;if(g&&g(f,p,n,r),v){i=Te(p,u),v(i,[],n,r),o=i.length;while(o--)(a=i[o])&&(p[u[o]]=!(f[u[o]]=a))}if(e){if(y||d){if(y){i=[],o=p.length;while(o--)(a=p[o])&&i.push(f[o]=a);y(null,p=[],i,r)}o=p.length;while(o--)(a=p[o])&&-1<(i=y?P(e,a):s[o])&&(e[i]=!(t[i]=a))}}else p=Te(p===t?p.splice(l,p.length):p),y?y(null,t,p,r):H.apply(t,p)})}function Ee(e){for(var i,t,n,r=e.length,o=b.relative[e[0].type],a=o||b.relative[" "],s=o?1:0,u=be(function(e){return e===i},a,!0),l=be(function(e){return-1<P(i,e)},a,!0),c=[function(e,t,n){var r=!o&&(n||t!==w)||((i=t).nodeType?u(e,t,n):l(e,t,n));return i=null,r}];s<r;s++)if(t=b.relative[e[s].type])c=[be(we(c),t)];else{if((t=b.filter[e[s].type].apply(null,e[s].matches))[S]){for(n=++s;n<r;n++)if(b.relative[e[n].type])break;return Ce(1<s&&we(c),1<s&&xe(e.slice(0,s-1).concat({value:" "===e[s-2].type?"*":""})).replace($,"$1"),t,s<n&&Ee(e.slice(s,n)),n<r&&Ee(e=e.slice(n)),n<r&&xe(e))}c.push(t)}return we(c)}return me.prototype=b.filters=b.pseudos,b.setFilters=new me,h=se.tokenize=function(e,t){var n,r,i,o,a,s,u,l=x[e+" "];if(l)return t?0:l.slice(0);a=e,s=[],u=b.preFilter;while(a){for(o in n&&!(r=_.exec(a))||(r&&(a=a.slice(r[0].length)||a),s.push(i=[])),n=!1,(r=z.exec(a))&&(n=r.shift(),i.push({value:n,type:r[0].replace($," ")}),a=a.slice(n.length)),b.filter)!(r=G[o].exec(a))||u[o]&&!(r=u[o](r))||(n=r.shift(),i.push({value:n,type:o,matches:r}),a=a.slice(n.length));if(!n)break}return t?a.length:a?se.error(e):x(e,s).slice(0)},f=se.compile=function(e,t){var n,v,y,m,x,r,i=[],o=[],a=A[e+" "];if(!a){t||(t=h(e)),n=t.length;while(n--)(a=Ee(t[n]))[S]?i.push(a):o.push(a);(a=A(e,(v=o,m=0<(y=i).length,x=0<v.length,r=function(e,t,n,r,i){var o,a,s,u=0,l="0",c=e&&[],f=[],p=w,d=e||x&&b.find.TAG("*",i),h=k+=null==p?1:Math.random()||.1,g=d.length;for(i&&(w=t==C||t||i);l!==g&&null!=(o=d[l]);l++){if(x&&o){a=0,t||o.ownerDocument==C||(T(o),n=!E);while(s=v[a++])if(s(o,t||C,n)){r.push(o);break}i&&(k=h)}m&&((o=!s&&o)&&u--,e&&c.push(o))}if(u+=l,m&&l!==u){a=0;while(s=y[a++])s(c,f,t,n);if(e){if(0<u)while(l--)c[l]||f[l]||(f[l]=q.call(r));f=Te(f)}H.apply(r,f),i&&!e&&0<f.length&&1<u+y.length&&se.uniqueSort(r)}return i&&(k=h,w=p),c},m?le(r):r))).selector=e}return a},g=se.select=function(e,t,n,r){var i,o,a,s,u,l="function"==typeof e&&e,c=!r&&h(e=l.selector||e);if(n=n||[],1===c.length){if(2<(o=c[0]=c[0].slice(0)).length&&"ID"===(a=o[0]).type&&9===t.nodeType&&E&&b.relative[o[1].type]){if(!(t=(b.find.ID(a.matches[0].replace(te,ne),t)||[])[0]))return n;l&&(t=t.parentNode),e=e.slice(o.shift().value.length)}i=G.needsContext.test(e)?0:o.length;while(i--){if(a=o[i],b.relative[s=a.type])break;if((u=b.find[s])&&(r=u(a.matches[0].replace(te,ne),ee.test(o[0].type)&&ye(t.parentNode)||t))){if(o.splice(i,1),!(e=r.length&&xe(o)))return H.apply(n,r),n;break}}}return(l||f(e,c))(r,t,!E,n,!t||ee.test(e)&&ye(t.parentNode)||t),n},d.sortStable=S.split("").sort(D).join("")===S,d.detectDuplicates=!!l,T(),d.sortDetached=ce(function(e){return 1&e.compareDocumentPosition(C.createElement("fieldset"))}),ce(function(e){return e.innerHTML="<a href='#'></a>","#"===e.firstChild.getAttribute("href")})||fe("type|href|height|width",function(e,t,n){if(!n)return e.getAttribute(t,"type"===t.toLowerCase()?1:2)}),d.attributes&&ce(function(e){return e.innerHTML="<input/>",e.firstChild.setAttribute("value",""),""===e.firstChild.getAttribute("value")})||fe("value",function(e,t,n){if(!n&&"input"===e.nodeName.toLowerCase())return e.defaultValue}),ce(function(e){return null==e.getAttribute("disabled")})||fe(R,function(e,t,n){var r;if(!n)return!0===e[t]?t.toLowerCase():(r=e.getAttributeNode(t))&&r.specified?r.value:null}),se}(C);S.find=d,S.expr=d.selectors,S.expr[":"]=S.expr.pseudos,S.uniqueSort=S.unique=d.uniqueSort,S.text=d.getText,S.isXMLDoc=d.isXML,S.contains=d.contains,S.escapeSelector=d.escape;var h=function(e,t,n){var r=[],i=void 0!==n;while((e=e[t])&&9!==e.nodeType)if(1===e.nodeType){if(i&&S(e).is(n))break;r.push(e)}return r},T=function(e,t){for(var n=[];e;e=e.nextSibling)1===e.nodeType&&e!==t&&n.push(e);return n},k=S.expr.match.needsContext;function A(e,t){return e.nodeName&&e.nodeName.toLowerCase()===t.toLowerCase()}var N=/^<([a-z][^\/\0>:\x20\t\r\n\f]*)[\x20\t\r\n\f]*\/?>(?:<\/\1>|)$/i;function D(e,n,r){return m(n)?S.grep(e,function(e,t){return!!n.call(e,t,e)!==r}):n.nodeType?S.grep(e,function(e){return e===n!==r}):"string"!=typeof n?S.grep(e,function(e){return-1<i.call(n,e)!==r}):S.filter(n,e,r)}S.filter=function(e,t,n){var r=t[0];return n&&(e=":not("+e+")"),1===t.length&&1===r.nodeType?S.find.matchesSelector(r,e)?[r]:[]:S.find.matches(e,S.grep(t,function(e){return 1===e.nodeType}))},S.fn.extend({find:function(e){var t,n,r=this.length,i=this;if("string"!=typeof e)return this.pushStack(S(e).filter(function(){for(t=0;t<r;t++)if(S.contains(i[t],this))return!0}));for(n=this.pushStack([]),t=0;t<r;t++)S.find(e,i[t],n);return 1<r?S.uniqueSort(n):n},filter:function(e){return this.pushStack(D(this,e||[],!1))},not:function(e){return this.pushStack(D(this,e||[],!0))},is:function(e){return!!D(this,"string"==typeof e&&k.test(e)?S(e):e||[],!1).length}});var j,q=/^(?:\s*(<[\w\W]+>)[^>]*|#([\w-]+))$/;(S.fn.init=function(e,t,n){var r,i;if(!e)return this;if(n=n||j,"string"==typeof e){if(!(r="<"===e[0]&&">"===e[e.length-1]&&3<=e.length?[null,e,null]:q.exec(e))||!r[1]&&t)return!t||t.jquery?(t||n).find(e):this.constructor(t).find(e);if(r[1]){if(t=t instanceof S?t[0]:t,S.merge(this,S.parseHTML(r[1],t&&t.nodeType?t.ownerDocument||t:E,!0)),N.test(r[1])&&S.isPlainObject(t))for(r in t)m(this[r])?this[r](t[r]):this.attr(r,t[r]);return this}return(i=E.getElementById(r[2]))&&(this[0]=i,this.length=1),this}return e.nodeType?(this[0]=e,this.length=1,this):m(e)?void 0!==n.ready?n.ready(e):e(S):S.makeArray(e,this)}).prototype=S.fn,j=S(E);var L=/^(?:parents|prev(?:Until|All))/,H={children:!0,contents:!0,next:!0,prev:!0};function O(e,t){while((e=e[t])&&1!==e.nodeType);return e}S.fn.extend({has:function(e){var t=S(e,this),n=t.length;return this.filter(function(){for(var e=0;e<n;e++)if(S.contains(this,t[e]))return!0})},closest:function(e,t){var n,r=0,i=this.length,o=[],a="string"!=typeof e&&S(e);if(!k.test(e))for(;r<i;r++)for(n=this[r];n&&n!==t;n=n.parentNode)if(n.nodeType<11&&(a?-1<a.index(n):1===n.nodeType&&S.find.matchesSelector(n,e))){o.push(n);break}return this.pushStack(1<o.length?S.uniqueSort(o):o)},index:function(e){return e?"string"==typeof e?i.call(S(e),this[0]):i.call(this,e.jquery?e[0]:e):this[0]&&this[0].parentNode?this.first().prevAll().length:-1},add:function(e,t){return this.pushStack(S.uniqueSort(S.merge(this.get(),S(e,t))))},addBack:function(e){return this.add(null==e?this.prevObject:this.prevObject.filter(e))}}),S.each({parent:function(e){var t=e.parentNode;return t&&11!==t.nodeType?t:null},parents:function(e){return h(e,"parentNode")},parentsUntil:function(e,t,n){return h(e,"parentNode",n)},next:function(e){return O(e,"nextSibling")},prev:function(e){return O(e,"previousSibling")},nextAll:function(e){return h(e,"nextSibling")},prevAll:function(e){return h(e,"previousSibling")},nextUntil:function(e,t,n){return h(e,"nextSibling",n)},prevUntil:function(e,t,n){return h(e,"previousSibling",n)},siblings:function(e){return T((e.parentNode||{}).firstChild,e)},children:function(e){return T(e.firstChild)},contents:function(e){return null!=e.contentDocument&&r(e.contentDocument)?e.contentDocument:(A(e,"template")&&(e=e.content||e),S.merge([],e.childNodes))}},function(r,i){S.fn[r]=function(e,t){var n=S.map(this,i,e);return"Until"!==r.slice(-5)&&(t=e),t&&"string"==typeof t&&(n=S.filter(t,n)),1<this.length&&(H[r]||S.uniqueSort(n),L.test(r)&&n.reverse()),this.pushStack(n)}});var P=/[^\x20\t\r\n\f]+/g;function R(e){return e}function M(e){throw e}function I(e,t,n,r){var i;try{e&&m(i=e.promise)?i.call(e).done(t).fail(n):e&&m(i=e.then)?i.call(e,t,n):t.apply(void 0,[e].slice(r))}catch(e){n.apply(void 0,[e])}}S.Callbacks=function(r){var e,n;r="string"==typeof r?(e=r,n={},S.each(e.match(P)||[],function(e,t){n[t]=!0}),n):S.extend({},r);var i,t,o,a,s=[],u=[],l=-1,c=function(){for(a=a||r.once,o=i=!0;u.length;l=-1){t=u.shift();while(++l<s.length)!1===s[l].apply(t[0],t[1])&&r.stopOnFalse&&(l=s.length,t=!1)}r.memory||(t=!1),i=!1,a&&(s=t?[]:"")},f={add:function(){return s&&(t&&!i&&(l=s.length-1,u.push(t)),function n(e){S.each(e,function(e,t){m(t)?r.unique&&f.has(t)||s.push(t):t&&t.length&&"string"!==w(t)&&n(t)})}(arguments),t&&!i&&c()),this},remove:function(){return S.each(arguments,function(e,t){var n;while(-1<(n=S.inArray(t,s,n)))s.splice(n,1),n<=l&&l--}),this},has:function(e){return e?-1<S.inArray(e,s):0<s.length},empty:function(){return s&&(s=[]),this},disable:function(){return a=u=[],s=t="",this},disabled:function(){return!s},lock:function(){return a=u=[],t||i||(s=t=""),this},locked:function(){return!!a},fireWith:function(e,t){return a||(t=[e,(t=t||[]).slice?t.slice():t],u.push(t),i||c()),this},fire:function(){return f.fireWith(this,arguments),this},fired:function(){return!!o}};return f},S.extend({Deferred:function(e){var o=[["notify","progress",S.Callbacks("memory"),S.Callbacks("memory"),2],["resolve","done",S.Callbacks("once memory"),S.Callbacks("once memory"),0,"resolved"],["reject","fail",S.Callbacks("once memory"),S.Callbacks("once memory"),1,"rejected"]],i="pending",a={state:function(){return i},always:function(){return s.done(arguments).fail(arguments),this},"catch":function(e){return a.then(null,e)},pipe:function(){var i=arguments;return S.Deferred(function(r){S.each(o,function(e,t){var n=m(i[t[4]])&&i[t[4]];s[t[1]](function(){var e=n&&n.apply(this,arguments);e&&m(e.promise)?e.promise().progress(r.notify).done(r.resolve).fail(r.reject):r[t[0]+"With"](this,n?[e]:arguments)})}),i=null}).promise()},then:function(t,n,r){var u=0;function l(i,o,a,s){return function(){var n=this,r=arguments,e=function(){var e,t;if(!(i<u)){if((e=a.apply(n,r))===o.promise())throw new TypeError("Thenable self-resolution");t=e&&("object"==typeof e||"function"==typeof e)&&e.then,m(t)?s?t.call(e,l(u,o,R,s),l(u,o,M,s)):(u++,t.call(e,l(u,o,R,s),l(u,o,M,s),l(u,o,R,o.notifyWith))):(a!==R&&(n=void 0,r=[e]),(s||o.resolveWith)(n,r))}},t=s?e:function(){try{e()}catch(e){S.Deferred.exceptionHook&&S.Deferred.exceptionHook(e,t.stackTrace),u<=i+1&&(a!==M&&(n=void 0,r=[e]),o.rejectWith(n,r))}};i?t():(S.Deferred.getStackHook&&(t.stackTrace=S.Deferred.getStackHook()),C.setTimeout(t))}}return S.Deferred(function(e){o[0][3].add(l(0,e,m(r)?r:R,e.notifyWith)),o[1][3].add(l(0,e,m(t)?t:R)),o[2][3].add(l(0,e,m(n)?n:M))}).promise()},promise:function(e){return null!=e?S.extend(e,a):a}},s={};return S.each(o,function(e,t){var n=t[2],r=t[5];a[t[1]]=n.add,r&&n.add(function(){i=r},o[3-e][2].disable,o[3-e][3].disable,o[0][2].lock,o[0][3].lock),n.add(t[3].fire),s[t[0]]=function(){return s[t[0]+"With"](this===s?void 0:this,arguments),this},s[t[0]+"With"]=n.fireWith}),a.promise(s),e&&e.call(s,s),s},when:function(e){var n=arguments.length,t=n,r=Array(t),i=s.call(arguments),o=S.Deferred(),a=function(t){return function(e){r[t]=this,i[t]=1<arguments.length?s.call(arguments):e,--n||o.resolveWith(r,i)}};if(n<=1&&(I(e,o.done(a(t)).resolve,o.reject,!n),"pending"===o.state()||m(i[t]&&i[t].then)))return o.then();while(t--)I(i[t],a(t),o.reject);return o.promise()}});var W=/^(Eval|Internal|Range|Reference|Syntax|Type|URI)Error$/;S.Deferred.exceptionHook=function(e,t){C.console&&C.console.warn&&e&&W.test(e.name)&&C.console.warn("jQuery.Deferred exception: "+e.message,e.stack,t)},S.readyException=function(e){C.setTimeout(function(){throw e})};var F=S.Deferred();function B(){E.removeEventListener("DOMContentLoaded",B),C.removeEventListener("load",B),S.ready()}S.fn.ready=function(e){return F.then(e)["catch"](function(e){S.readyException(e)}),this},S.extend({isReady:!1,readyWait:1,ready:function(e){(!0===e?--S.readyWait:S.isReady)||(S.isReady=!0)!==e&&0<--S.readyWait||F.resolveWith(E,[S])}}),S.ready.then=F.then,"complete"===E.readyState||"loading"!==E.readyState&&!E.documentElement.doScroll?C.setTimeout(S.ready):(E.addEventListener("DOMContentLoaded",B),C.addEventListener("load",B));var $=function(e,t,n,r,i,o,a){var s=0,u=e.length,l=null==n;if("object"===w(n))for(s in i=!0,n)$(e,t,s,n[s],!0,o,a);else if(void 0!==r&&(i=!0,m(r)||(a=!0),l&&(a?(t.call(e,r),t=null):(l=t,t=function(e,t,n){return l.call(S(e),n)})),t))for(;s<u;s++)t(e[s],n,a?r:r.call(e[s],s,t(e[s],n)));return i?e:l?t.call(e):u?t(e[0],n):o},_=/^-ms-/,z=/-([a-z])/g;function U(e,t){return t.toUpperCase()}function X(e){return e.replace(_,"ms-").replace(z,U)}var V=function(e){return 1===e.nodeType||9===e.nodeType||!+e.nodeType};function G(){this.expando=S.expando+G.uid++}G.uid=1,G.prototype={cache:function(e){var t=e[this.expando];return t||(t={},V(e)&&(e.nodeType?e[this.expando]=t:Object.defineProperty(e,this.expando,{value:t,configurable:!0}))),t},set:function(e,t,n){var r,i=this.cache(e);if("string"==typeof t)i[X(t)]=n;else for(r in t)i[X(r)]=t[r];return i},get:function(e,t){return void 0===t?this.cache(e):e[this.expando]&&e[this.expando][X(t)]},access:function(e,t,n){return void 0===t||t&&"string"==typeof t&&void 0===n?this.get(e,t):(this.set(e,t,n),void 0!==n?n:t)},remove:function(e,t){var n,r=e[this.expando];if(void 0!==r){if(void 0!==t){n=(t=Array.isArray(t)?t.map(X):(t=X(t))in r?[t]:t.match(P)||[]).length;while(n--)delete r[t[n]]}(void 0===t||S.isEmptyObject(r))&&(e.nodeType?e[this.expando]=void 0:delete e[this.expando])}},hasData:function(e){var t=e[this.expando];return void 0!==t&&!S.isEmptyObject(t)}};var Y=new G,Q=new G,J=/^(?:\{[\w\W]*\}|\[[\w\W]*\])$/,K=/[A-Z]/g;function Z(e,t,n){var r,i;if(void 0===n&&1===e.nodeType)if(r="data-"+t.replace(K,"-$&").toLowerCase(),"string"==typeof(n=e.getAttribute(r))){try{n="true"===(i=n)||"false"!==i&&("null"===i?null:i===+i+""?+i:J.test(i)?JSON.parse(i):i)}catch(e){}Q.set(e,t,n)}else n=void 0;return n}S.extend({hasData:function(e){return Q.hasData(e)||Y.hasData(e)},data:function(e,t,n){return Q.access(e,t,n)},removeData:function(e,t){Q.remove(e,t)},_data:function(e,t,n){return Y.access(e,t,n)},_removeData:function(e,t){Y.remove(e,t)}}),S.fn.extend({data:function(n,e){var t,r,i,o=this[0],a=o&&o.attributes;if(void 0===n){if(this.length&&(i=Q.get(o),1===o.nodeType&&!Y.get(o,"hasDataAttrs"))){t=a.length;while(t--)a[t]&&0===(r=a[t].name).indexOf("data-")&&(r=X(r.slice(5)),Z(o,r,i[r]));Y.set(o,"hasDataAttrs",!0)}return i}return"object"==typeof n?this.each(function(){Q.set(this,n)}):$(this,function(e){var t;if(o&&void 0===e)return void 0!==(t=Q.get(o,n))?t:void 0!==(t=Z(o,n))?t:void 0;this.each(function(){Q.set(this,n,e)})},null,e,1<arguments.length,null,!0)},removeData:function(e){return this.each(function(){Q.remove(this,e)})}}),S.extend({queue:function(e,t,n){var r;if(e)return t=(t||"fx")+"queue",r=Y.get(e,t),n&&(!r||Array.isArray(n)?r=Y.access(e,t,S.makeArray(n)):r.push(n)),r||[]},dequeue:function(e,t){t=t||"fx";var n=S.queue(e,t),r=n.length,i=n.shift(),o=S._queueHooks(e,t);"inprogress"===i&&(i=n.shift(),r--),i&&("fx"===t&&n.unshift("inprogress"),delete o.stop,i.call(e,function(){S.dequeue(e,t)},o)),!r&&o&&o.empty.fire()},_queueHooks:function(e,t){var n=t+"queueHooks";return Y.get(e,n)||Y.access(e,n,{empty:S.Callbacks("once memory").add(function(){Y.remove(e,[t+"queue",n])})})}}),S.fn.extend({queue:function(t,n){var e=2;return"string"!=typeof t&&(n=t,t="fx",e--),arguments.length<e?S.queue(this[0],t):void 0===n?this:this.each(function(){var e=S.queue(this,t,n);S._queueHooks(this,t),"fx"===t&&"inprogress"!==e[0]&&S.dequeue(this,t)})},dequeue:function(e){return this.each(function(){S.dequeue(this,e)})},clearQueue:function(e){return this.queue(e||"fx",[])},promise:function(e,t){var n,r=1,i=S.Deferred(),o=this,a=this.length,s=function(){--r||i.resolveWith(o,[o])};"string"!=typeof e&&(t=e,e=void 0),e=e||"fx";while(a--)(n=Y.get(o[a],e+"queueHooks"))&&n.empty&&(r++,n.empty.add(s));return s(),i.promise(t)}});var ee=/[+-]?(?:\d*\.|)\d+(?:[eE][+-]?\d+|)/.source,te=new RegExp("^(?:([+-])=|)("+ee+")([a-z%]*)$","i"),ne=["Top","Right","Bottom","Left"],re=E.documentElement,ie=function(e){return S.contains(e.ownerDocument,e)},oe={composed:!0};re.getRootNode&&(ie=function(e){return S.contains(e.ownerDocument,e)||e.getRootNode(oe)===e.ownerDocument});var ae=function(e,t){return"none"===(e=t||e).style.display||""===e.style.display&&ie(e)&&"none"===S.css(e,"display")};function se(e,t,n,r){var i,o,a=20,s=r?function(){return r.cur()}:function(){return S.css(e,t,"")},u=s(),l=n&&n[3]||(S.cssNumber[t]?"":"px"),c=e.nodeType&&(S.cssNumber[t]||"px"!==l&&+u)&&te.exec(S.css(e,t));if(c&&c[3]!==l){u/=2,l=l||c[3],c=+u||1;while(a--)S.style(e,t,c+l),(1-o)*(1-(o=s()/u||.5))<=0&&(a=0),c/=o;c*=2,S.style(e,t,c+l),n=n||[]}return n&&(c=+c||+u||0,i=n[1]?c+(n[1]+1)*n[2]:+n[2],r&&(r.unit=l,r.start=c,r.end=i)),i}var ue={};function le(e,t){for(var n,r,i,o,a,s,u,l=[],c=0,f=e.length;c<f;c++)(r=e[c]).style&&(n=r.style.display,t?("none"===n&&(l[c]=Y.get(r,"display")||null,l[c]||(r.style.display="")),""===r.style.display&&ae(r)&&(l[c]=(u=a=o=void 0,a=(i=r).ownerDocument,s=i.nodeName,(u=ue[s])||(o=a.body.appendChild(a.createElement(s)),u=S.css(o,"display"),o.parentNode.removeChild(o),"none"===u&&(u="block"),ue[s]=u)))):"none"!==n&&(l[c]="none",Y.set(r,"display",n)));for(c=0;c<f;c++)null!=l[c]&&(e[c].style.display=l[c]);return e}S.fn.extend({show:function(){return le(this,!0)},hide:function(){return le(this)},toggle:function(e){return"boolean"==typeof e?e?this.show():this.hide():this.each(function(){ae(this)?S(this).show():S(this).hide()})}});var ce,fe,pe=/^(?:checkbox|radio)$/i,de=/<([a-z][^\/\0>\x20\t\r\n\f]*)/i,he=/^$|^module$|\/(?:java|ecma)script/i;ce=E.createDocumentFragment().appendChild(E.createElement("div")),(fe=E.createElement("input")).setAttribute("type","radio"),fe.setAttribute("checked","checked"),fe.setAttribute("name","t"),ce.appendChild(fe),y.checkClone=ce.cloneNode(!0).cloneNode(!0).lastChild.checked,ce.innerHTML="<textarea>x</textarea>",y.noCloneChecked=!!ce.cloneNode(!0).lastChild.defaultValue,ce.innerHTML="<option></option>",y.option=!!ce.lastChild;var ge={thead:[1,"<table>","</table>"],col:[2,"<table><colgroup>","</colgroup></table>"],tr:[2,"<table><tbody>","</tbody></table>"],td:[3,"<table><tbody><tr>","</tr></tbody></table>"],_default:[0,"",""]};function ve(e,t){var n;return n="undefined"!=typeof e.getElementsByTagName?e.getElementsByTagName(t||"*"):"undefined"!=typeof e.querySelectorAll?e.querySelectorAll(t||"*"):[],void 0===t||t&&A(e,t)?S.merge([e],n):n}function ye(e,t){for(var n=0,r=e.length;n<r;n++)Y.set(e[n],"globalEval",!t||Y.get(t[n],"globalEval"))}ge.tbody=ge.tfoot=ge.colgroup=ge.caption=ge.thead,ge.th=ge.td,y.option||(ge.optgroup=ge.option=[1,"<select multiple='multiple'>","</select>"]);var me=/<|&#?\w+;/;function xe(e,t,n,r,i){for(var o,a,s,u,l,c,f=t.createDocumentFragment(),p=[],d=0,h=e.length;d<h;d++)if((o=e[d])||0===o)if("object"===w(o))S.merge(p,o.nodeType?[o]:o);else if(me.test(o)){a=a||f.appendChild(t.createElement("div")),s=(de.exec(o)||["",""])[1].toLowerCase(),u=ge[s]||ge._default,a.innerHTML=u[1]+S.htmlPrefilter(o)+u[2],c=u[0];while(c--)a=a.lastChild;S.merge(p,a.childNodes),(a=f.firstChild).textContent=""}else p.push(t.createTextNode(o));f.textContent="",d=0;while(o=p[d++])if(r&&-1<S.inArray(o,r))i&&i.push(o);else if(l=ie(o),a=ve(f.appendChild(o),"script"),l&&ye(a),n){c=0;while(o=a[c++])he.test(o.type||"")&&n.push(o)}return f}var be=/^key/,we=/^(?:mouse|pointer|contextmenu|drag|drop)|click/,Te=/^([^.]*)(?:\.(.+)|)/;function Ce(){return!0}function Ee(){return!1}function Se(e,t){return e===function(){try{return E.activeElement}catch(e){}}()==("focus"===t)}function ke(e,t,n,r,i,o){var a,s;if("object"==typeof t){for(s in"string"!=typeof n&&(r=r||n,n=void 0),t)ke(e,s,n,r,t[s],o);return e}if(null==r&&null==i?(i=n,r=n=void 0):null==i&&("string"==typeof n?(i=r,r=void 0):(i=r,r=n,n=void 0)),!1===i)i=Ee;else if(!i)return e;return 1===o&&(a=i,(i=function(e){return S().off(e),a.apply(this,arguments)}).guid=a.guid||(a.guid=S.guid++)),e.each(function(){S.event.add(this,t,i,r,n)})}function Ae(e,i,o){o?(Y.set(e,i,!1),S.event.add(e,i,{namespace:!1,handler:function(e){var t,n,r=Y.get(this,i);if(1&e.isTrigger&&this[i]){if(r.length)(S.event.special[i]||{}).delegateType&&e.stopPropagation();else if(r=s.call(arguments),Y.set(this,i,r),t=o(this,i),this[i](),r!==(n=Y.get(this,i))||t?Y.set(this,i,!1):n={},r!==n)return e.stopImmediatePropagation(),e.preventDefault(),n.value}else r.length&&(Y.set(this,i,{value:S.event.trigger(S.extend(r[0],S.Event.prototype),r.slice(1),this)}),e.stopImmediatePropagation())}})):void 0===Y.get(e,i)&&S.event.add(e,i,Ce)}S.event={global:{},add:function(t,e,n,r,i){var o,a,s,u,l,c,f,p,d,h,g,v=Y.get(t);if(V(t)){n.handler&&(n=(o=n).handler,i=o.selector),i&&S.find.matchesSelector(re,i),n.guid||(n.guid=S.guid++),(u=v.events)||(u=v.events=Object.create(null)),(a=v.handle)||(a=v.handle=function(e){return"undefined"!=typeof S&&S.event.triggered!==e.type?S.event.dispatch.apply(t,arguments):void 0}),l=(e=(e||"").match(P)||[""]).length;while(l--)d=g=(s=Te.exec(e[l])||[])[1],h=(s[2]||"").split(".").sort(),d&&(f=S.event.special[d]||{},d=(i?f.delegateType:f.bindType)||d,f=S.event.special[d]||{},c=S.extend({type:d,origType:g,data:r,handler:n,guid:n.guid,selector:i,needsContext:i&&S.expr.match.needsContext.test(i),namespace:h.join(".")},o),(p=u[d])||((p=u[d]=[]).delegateCount=0,f.setup&&!1!==f.setup.call(t,r,h,a)||t.addEventListener&&t.addEventListener(d,a)),f.add&&(f.add.call(t,c),c.handler.guid||(c.handler.guid=n.guid)),i?p.splice(p.delegateCount++,0,c):p.push(c),S.event.global[d]=!0)}},remove:function(e,t,n,r,i){var o,a,s,u,l,c,f,p,d,h,g,v=Y.hasData(e)&&Y.get(e);if(v&&(u=v.events)){l=(t=(t||"").match(P)||[""]).length;while(l--)if(d=g=(s=Te.exec(t[l])||[])[1],h=(s[2]||"").split(".").sort(),d){f=S.event.special[d]||{},p=u[d=(r?f.delegateType:f.bindType)||d]||[],s=s[2]&&new RegExp("(^|\\.)"+h.join("\\.(?:.*\\.|)")+"(\\.|$)"),a=o=p.length;while(o--)c=p[o],!i&&g!==c.origType||n&&n.guid!==c.guid||s&&!s.test(c.namespace)||r&&r!==c.selector&&("**"!==r||!c.selector)||(p.splice(o,1),c.selector&&p.delegateCount--,f.remove&&f.remove.call(e,c));a&&!p.length&&(f.teardown&&!1!==f.teardown.call(e,h,v.handle)||S.removeEvent(e,d,v.handle),delete u[d])}else for(d in u)S.event.remove(e,d+t[l],n,r,!0);S.isEmptyObject(u)&&Y.remove(e,"handle events")}},dispatch:function(e){var t,n,r,i,o,a,s=new Array(arguments.length),u=S.event.fix(e),l=(Y.get(this,"events")||Object.create(null))[u.type]||[],c=S.event.special[u.type]||{};for(s[0]=u,t=1;t<arguments.length;t++)s[t]=arguments[t];if(u.delegateTarget=this,!c.preDispatch||!1!==c.preDispatch.call(this,u)){a=S.event.handlers.call(this,u,l),t=0;while((i=a[t++])&&!u.isPropagationStopped()){u.currentTarget=i.elem,n=0;while((o=i.handlers[n++])&&!u.isImmediatePropagationStopped())u.rnamespace&&!1!==o.namespace&&!u.rnamespace.test(o.namespace)||(u.handleObj=o,u.data=o.data,void 0!==(r=((S.event.special[o.origType]||{}).handle||o.handler).apply(i.elem,s))&&!1===(u.result=r)&&(u.preventDefault(),u.stopPropagation()))}return c.postDispatch&&c.postDispatch.call(this,u),u.result}},handlers:function(e,t){var n,r,i,o,a,s=[],u=t.delegateCount,l=e.target;if(u&&l.nodeType&&!("click"===e.type&&1<=e.button))for(;l!==this;l=l.parentNode||this)if(1===l.nodeType&&("click"!==e.type||!0!==l.disabled)){for(o=[],a={},n=0;n<u;n++)void 0===a[i=(r=t[n]).selector+" "]&&(a[i]=r.needsContext?-1<S(i,this).index(l):S.find(i,this,null,[l]).length),a[i]&&o.push(r);o.length&&s.push({elem:l,handlers:o})}return l=this,u<t.length&&s.push({elem:l,handlers:t.slice(u)}),s},addProp:function(t,e){Object.defineProperty(S.Event.prototype,t,{enumerable:!0,configurable:!0,get:m(e)?function(){if(this.originalEvent)return e(this.originalEvent)}:function(){if(this.originalEvent)return this.originalEvent[t]},set:function(e){Object.defineProperty(this,t,{enumerable:!0,configurable:!0,writable:!0,value:e})}})},fix:function(e){return e[S.expando]?e:new S.Event(e)},special:{load:{noBubble:!0},click:{setup:function(e){var t=this||e;return pe.test(t.type)&&t.click&&A(t,"input")&&Ae(t,"click",Ce),!1},trigger:function(e){var t=this||e;return pe.test(t.type)&&t.click&&A(t,"input")&&Ae(t,"click"),!0},_default:function(e){var t=e.target;return pe.test(t.type)&&t.click&&A(t,"input")&&Y.get(t,"click")||A(t,"a")}},beforeunload:{postDispatch:function(e){void 0!==e.result&&e.originalEvent&&(e.originalEvent.returnValue=e.result)}}}},S.removeEvent=function(e,t,n){e.removeEventListener&&e.removeEventListener(t,n)},S.Event=function(e,t){if(!(this instanceof S.Event))return new S.Event(e,t);e&&e.type?(this.originalEvent=e,this.type=e.type,this.isDefaultPrevented=e.defaultPrevented||void 0===e.defaultPrevented&&!1===e.returnValue?Ce:Ee,this.target=e.target&&3===e.target.nodeType?e.target.parentNode:e.target,this.currentTarget=e.currentTarget,this.relatedTarget=e.relatedTarget):this.type=e,t&&S.extend(this,t),this.timeStamp=e&&e.timeStamp||Date.now(),this[S.expando]=!0},S.Event.prototype={constructor:S.Event,isDefaultPrevented:Ee,isPropagationStopped:Ee,isImmediatePropagationStopped:Ee,isSimulated:!1,preventDefault:function(){var e=this.originalEvent;this.isDefaultPrevented=Ce,e&&!this.isSimulated&&e.preventDefault()},stopPropagation:function(){var e=this.originalEvent;this.isPropagationStopped=Ce,e&&!this.isSimulated&&e.stopPropagation()},stopImmediatePropagation:function(){var e=this.originalEvent;this.isImmediatePropagationStopped=Ce,e&&!this.isSimulated&&e.stopImmediatePropagation(),this.stopPropagation()}},S.each({altKey:!0,bubbles:!0,cancelable:!0,changedTouches:!0,ctrlKey:!0,detail:!0,eventPhase:!0,metaKey:!0,pageX:!0,pageY:!0,shiftKey:!0,view:!0,"char":!0,code:!0,charCode:!0,key:!0,keyCode:!0,button:!0,buttons:!0,clientX:!0,clientY:!0,offsetX:!0,offsetY:!0,pointerId:!0,pointerType:!0,screenX:!0,screenY:!0,targetTouches:!0,toElement:!0,touches:!0,which:function(e){var t=e.button;return null==e.which&&be.test(e.type)?null!=e.charCode?e.charCode:e.keyCode:!e.which&&void 0!==t&&we.test(e.type)?1&t?1:2&t?3:4&t?2:0:e.which}},S.event.addProp),S.each({focus:"focusin",blur:"focusout"},function(e,t){S.event.special[e]={setup:function(){return Ae(this,e,Se),!1},trigger:function(){return Ae(this,e),!0},delegateType:t}}),S.each({mouseenter:"mouseover",mouseleave:"mouseout",pointerenter:"pointerover",pointerleave:"pointerout"},function(e,i){S.event.special[e]={delegateType:i,bindType:i,handle:function(e){var t,n=e.relatedTarget,r=e.handleObj;return n&&(n===this||S.contains(this,n))||(e.type=r.origType,t=r.handler.apply(this,arguments),e.type=i),t}}}),S.fn.extend({on:function(e,t,n,r){return ke(this,e,t,n,r)},one:function(e,t,n,r){return ke(this,e,t,n,r,1)},off:function(e,t,n){var r,i;if(e&&e.preventDefault&&e.handleObj)return r=e.handleObj,S(e.delegateTarget).off(r.namespace?r.origType+"."+r.namespace:r.origType,r.selector,r.handler),this;if("object"==typeof e){for(i in e)this.off(i,t,e[i]);return this}return!1!==t&&"function"!=typeof t||(n=t,t=void 0),!1===n&&(n=Ee),this.each(function(){S.event.remove(this,e,n,t)})}});var Ne=/<script|<style|<link/i,De=/checked\s*(?:[^=]|=\s*.checked.)/i,je=/^\s*<!(?:\[CDATA\[|--)|(?:\]\]|--)>\s*$/g;function qe(e,t){return A(e,"table")&&A(11!==t.nodeType?t:t.firstChild,"tr")&&S(e).children("tbody")[0]||e}function Le(e){return e.type=(null!==e.getAttribute("type"))+"/"+e.type,e}function He(e){return"true/"===(e.type||"").slice(0,5)?e.type=e.type.slice(5):e.removeAttribute("type"),e}function Oe(e,t){var n,r,i,o,a,s;if(1===t.nodeType){if(Y.hasData(e)&&(s=Y.get(e).events))for(i in Y.remove(t,"handle events"),s)for(n=0,r=s[i].length;n<r;n++)S.event.add(t,i,s[i][n]);Q.hasData(e)&&(o=Q.access(e),a=S.extend({},o),Q.set(t,a))}}function Pe(n,r,i,o){r=g(r);var e,t,a,s,u,l,c=0,f=n.length,p=f-1,d=r[0],h=m(d);if(h||1<f&&"string"==typeof d&&!y.checkClone&&De.test(d))return n.each(function(e){var t=n.eq(e);h&&(r[0]=d.call(this,e,t.html())),Pe(t,r,i,o)});if(f&&(t=(e=xe(r,n[0].ownerDocument,!1,n,o)).firstChild,1===e.childNodes.length&&(e=t),t||o)){for(s=(a=S.map(ve(e,"script"),Le)).length;c<f;c++)u=e,c!==p&&(u=S.clone(u,!0,!0),s&&S.merge(a,ve(u,"script"))),i.call(n[c],u,c);if(s)for(l=a[a.length-1].ownerDocument,S.map(a,He),c=0;c<s;c++)u=a[c],he.test(u.type||"")&&!Y.access(u,"globalEval")&&S.contains(l,u)&&(u.src&&"module"!==(u.type||"").toLowerCase()?S._evalUrl&&!u.noModule&&S._evalUrl(u.src,{nonce:u.nonce||u.getAttribute("nonce")},l):b(u.textContent.replace(je,""),u,l))}return n}function Re(e,t,n){for(var r,i=t?S.filter(t,e):e,o=0;null!=(r=i[o]);o++)n||1!==r.nodeType||S.cleanData(ve(r)),r.parentNode&&(n&&ie(r)&&ye(ve(r,"script")),r.parentNode.removeChild(r));return e}S.extend({htmlPrefilter:function(e){return e},clone:function(e,t,n){var r,i,o,a,s,u,l,c=e.cloneNode(!0),f=ie(e);if(!(y.noCloneChecked||1!==e.nodeType&&11!==e.nodeType||S.isXMLDoc(e)))for(a=ve(c),r=0,i=(o=ve(e)).length;r<i;r++)s=o[r],u=a[r],void 0,"input"===(l=u.nodeName.toLowerCase())&&pe.test(s.type)?u.checked=s.checked:"input"!==l&&"textarea"!==l||(u.defaultValue=s.defaultValue);if(t)if(n)for(o=o||ve(e),a=a||ve(c),r=0,i=o.length;r<i;r++)Oe(o[r],a[r]);else Oe(e,c);return 0<(a=ve(c,"script")).length&&ye(a,!f&&ve(e,"script")),c},cleanData:function(e){for(var t,n,r,i=S.event.special,o=0;void 0!==(n=e[o]);o++)if(V(n)){if(t=n[Y.expando]){if(t.events)for(r in t.events)i[r]?S.event.remove(n,r):S.removeEvent(n,r,t.handle);n[Y.expando]=void 0}n[Q.expando]&&(n[Q.expando]=void 0)}}}),S.fn.extend({detach:function(e){return Re(this,e,!0)},remove:function(e){return Re(this,e)},text:function(e){return $(this,function(e){return void 0===e?S.text(this):this.empty().each(function(){1!==this.nodeType&&11!==this.nodeType&&9!==this.nodeType||(this.textContent=e)})},null,e,arguments.length)},append:function(){return Pe(this,arguments,function(e){1!==this.nodeType&&11!==this.nodeType&&9!==this.nodeType||qe(this,e).appendChild(e)})},prepend:function(){return Pe(this,arguments,function(e){if(1===this.nodeType||11===this.nodeType||9===this.nodeType){var t=qe(this,e);t.insertBefore(e,t.firstChild)}})},before:function(){return Pe(this,arguments,function(e){this.parentNode&&this.parentNode.insertBefore(e,this)})},after:function(){return Pe(this,arguments,function(e){this.parentNode&&this.parentNode.insertBefore(e,this.nextSibling)})},empty:function(){for(var e,t=0;null!=(e=this[t]);t++)1===e.nodeType&&(S.cleanData(ve(e,!1)),e.textContent="");return this},clone:function(e,t){return e=null!=e&&e,t=null==t?e:t,this.map(function(){return S.clone(this,e,t)})},html:function(e){return $(this,function(e){var t=this[0]||{},n=0,r=this.length;if(void 0===e&&1===t.nodeType)return t.innerHTML;if("string"==typeof e&&!Ne.test(e)&&!ge[(de.exec(e)||["",""])[1].toLowerCase()]){e=S.htmlPrefilter(e);try{for(;n<r;n++)1===(t=this[n]||{}).nodeType&&(S.cleanData(ve(t,!1)),t.innerHTML=e);t=0}catch(e){}}t&&this.empty().append(e)},null,e,arguments.length)},replaceWith:function(){var n=[];return Pe(this,arguments,function(e){var t=this.parentNode;S.inArray(this,n)<0&&(S.cleanData(ve(this)),t&&t.replaceChild(e,this))},n)}}),S.each({appendTo:"append",prependTo:"prepend",insertBefore:"before",insertAfter:"after",replaceAll:"replaceWith"},function(e,a){S.fn[e]=function(e){for(var t,n=[],r=S(e),i=r.length-1,o=0;o<=i;o++)t=o===i?this:this.clone(!0),S(r[o])[a](t),u.apply(n,t.get());return this.pushStack(n)}});var Me=new RegExp("^("+ee+")(?!px)[a-z%]+$","i"),Ie=function(e){var t=e.ownerDocument.defaultView;return t&&t.opener||(t=C),t.getComputedStyle(e)},We=function(e,t,n){var r,i,o={};for(i in t)o[i]=e.style[i],e.style[i]=t[i];for(i in r=n.call(e),t)e.style[i]=o[i];return r},Fe=new RegExp(ne.join("|"),"i");function Be(e,t,n){var r,i,o,a,s=e.style;return(n=n||Ie(e))&&(""!==(a=n.getPropertyValue(t)||n[t])||ie(e)||(a=S.style(e,t)),!y.pixelBoxStyles()&&Me.test(a)&&Fe.test(t)&&(r=s.width,i=s.minWidth,o=s.maxWidth,s.minWidth=s.maxWidth=s.width=a,a=n.width,s.width=r,s.minWidth=i,s.maxWidth=o)),void 0!==a?a+"":a}function $e(e,t){return{get:function(){if(!e())return(this.get=t).apply(this,arguments);delete this.get}}}!function(){function e(){if(l){u.style.cssText="position:absolute;left:-11111px;width:60px;margin-top:1px;padding:0;border:0",l.style.cssText="position:relative;display:block;box-sizing:border-box;overflow:scroll;margin:auto;border:1px;padding:1px;width:60%;top:1%",re.appendChild(u).appendChild(l);var e=C.getComputedStyle(l);n="1%"!==e.top,s=12===t(e.marginLeft),l.style.right="60%",o=36===t(e.right),r=36===t(e.width),l.style.position="absolute",i=12===t(l.offsetWidth/3),re.removeChild(u),l=null}}function t(e){return Math.round(parseFloat(e))}var n,r,i,o,a,s,u=E.createElement("div"),l=E.createElement("div");l.style&&(l.style.backgroundClip="content-box",l.cloneNode(!0).style.backgroundClip="",y.clearCloneStyle="content-box"===l.style.backgroundClip,S.extend(y,{boxSizingReliable:function(){return e(),r},pixelBoxStyles:function(){return e(),o},pixelPosition:function(){return e(),n},reliableMarginLeft:function(){return e(),s},scrollboxSize:function(){return e(),i},reliableTrDimensions:function(){var e,t,n,r;return null==a&&(e=E.createElement("table"),t=E.createElement("tr"),n=E.createElement("div"),e.style.cssText="position:absolute;left:-11111px",t.style.height="1px",n.style.height="9px",re.appendChild(e).appendChild(t).appendChild(n),r=C.getComputedStyle(t),a=3<parseInt(r.height),re.removeChild(e)),a}}))}();var _e=["Webkit","Moz","ms"],ze=E.createElement("div").style,Ue={};function Xe(e){var t=S.cssProps[e]||Ue[e];return t||(e in ze?e:Ue[e]=function(e){var t=e[0].toUpperCase()+e.slice(1),n=_e.length;while(n--)if((e=_e[n]+t)in ze)return e}(e)||e)}var Ve=/^(none|table(?!-c[ea]).+)/,Ge=/^--/,Ye={position:"absolute",visibility:"hidden",display:"block"},Qe={letterSpacing:"0",fontWeight:"400"};function Je(e,t,n){var r=te.exec(t);return r?Math.max(0,r[2]-(n||0))+(r[3]||"px"):t}function Ke(e,t,n,r,i,o){var a="width"===t?1:0,s=0,u=0;if(n===(r?"border":"content"))return 0;for(;a<4;a+=2)"margin"===n&&(u+=S.css(e,n+ne[a],!0,i)),r?("content"===n&&(u-=S.css(e,"padding"+ne[a],!0,i)),"margin"!==n&&(u-=S.css(e,"border"+ne[a]+"Width",!0,i))):(u+=S.css(e,"padding"+ne[a],!0,i),"padding"!==n?u+=S.css(e,"border"+ne[a]+"Width",!0,i):s+=S.css(e,"border"+ne[a]+"Width",!0,i));return!r&&0<=o&&(u+=Math.max(0,Math.ceil(e["offset"+t[0].toUpperCase()+t.slice(1)]-o-u-s-.5))||0),u}function Ze(e,t,n){var r=Ie(e),i=(!y.boxSizingReliable()||n)&&"border-box"===S.css(e,"boxSizing",!1,r),o=i,a=Be(e,t,r),s="offset"+t[0].toUpperCase()+t.slice(1);if(Me.test(a)){if(!n)return a;a="auto"}return(!y.boxSizingReliable()&&i||!y.reliableTrDimensions()&&A(e,"tr")||"auto"===a||!parseFloat(a)&&"inline"===S.css(e,"display",!1,r))&&e.getClientRects().length&&(i="border-box"===S.css(e,"boxSizing",!1,r),(o=s in e)&&(a=e[s])),(a=parseFloat(a)||0)+Ke(e,t,n||(i?"border":"content"),o,r,a)+"px"}function et(e,t,n,r,i){return new et.prototype.init(e,t,n,r,i)}S.extend({cssHooks:{opacity:{get:function(e,t){if(t){var n=Be(e,"opacity");return""===n?"1":n}}}},cssNumber:{animationIterationCount:!0,columnCount:!0,fillOpacity:!0,flexGrow:!0,flexShrink:!0,fontWeight:!0,gridArea:!0,gridColumn:!0,gridColumnEnd:!0,gridColumnStart:!0,gridRow:!0,gridRowEnd:!0,gridRowStart:!0,lineHeight:!0,opacity:!0,order:!0,orphans:!0,widows:!0,zIndex:!0,zoom:!0},cssProps:{},style:function(e,t,n,r){if(e&&3!==e.nodeType&&8!==e.nodeType&&e.style){var i,o,a,s=X(t),u=Ge.test(t),l=e.style;if(u||(t=Xe(s)),a=S.cssHooks[t]||S.cssHooks[s],void 0===n)return a&&"get"in a&&void 0!==(i=a.get(e,!1,r))?i:l[t];"string"===(o=typeof n)&&(i=te.exec(n))&&i[1]&&(n=se(e,t,i),o="number"),null!=n&&n==n&&("number"!==o||u||(n+=i&&i[3]||(S.cssNumber[s]?"":"px")),y.clearCloneStyle||""!==n||0!==t.indexOf("background")||(l[t]="inherit"),a&&"set"in a&&void 0===(n=a.set(e,n,r))||(u?l.setProperty(t,n):l[t]=n))}},css:function(e,t,n,r){var i,o,a,s=X(t);return Ge.test(t)||(t=Xe(s)),(a=S.cssHooks[t]||S.cssHooks[s])&&"get"in a&&(i=a.get(e,!0,n)),void 0===i&&(i=Be(e,t,r)),"normal"===i&&t in Qe&&(i=Qe[t]),""===n||n?(o=parseFloat(i),!0===n||isFinite(o)?o||0:i):i}}),S.each(["height","width"],function(e,u){S.cssHooks[u]={get:function(e,t,n){if(t)return!Ve.test(S.css(e,"display"))||e.getClientRects().length&&e.getBoundingClientRect().width?Ze(e,u,n):We(e,Ye,function(){return Ze(e,u,n)})},set:function(e,t,n){var r,i=Ie(e),o=!y.scrollboxSize()&&"absolute"===i.position,a=(o||n)&&"border-box"===S.css(e,"boxSizing",!1,i),s=n?Ke(e,u,n,a,i):0;return a&&o&&(s-=Math.ceil(e["offset"+u[0].toUpperCase()+u.slice(1)]-parseFloat(i[u])-Ke(e,u,"border",!1,i)-.5)),s&&(r=te.exec(t))&&"px"!==(r[3]||"px")&&(e.style[u]=t,t=S.css(e,u)),Je(0,t,s)}}}),S.cssHooks.marginLeft=$e(y.reliableMarginLeft,function(e,t){if(t)return(parseFloat(Be(e,"marginLeft"))||e.getBoundingClientRect().left-We(e,{marginLeft:0},function(){return e.getBoundingClientRect().left}))+"px"}),S.each({margin:"",padding:"",border:"Width"},function(i,o){S.cssHooks[i+o]={expand:function(e){for(var t=0,n={},r="string"==typeof e?e.split(" "):[e];t<4;t++)n[i+ne[t]+o]=r[t]||r[t-2]||r[0];return n}},"margin"!==i&&(S.cssHooks[i+o].set=Je)}),S.fn.extend({css:function(e,t){return $(this,function(e,t,n){var r,i,o={},a=0;if(Array.isArray(t)){for(r=Ie(e),i=t.length;a<i;a++)o[t[a]]=S.css(e,t[a],!1,r);return o}return void 0!==n?S.style(e,t,n):S.css(e,t)},e,t,1<arguments.length)}}),((S.Tween=et).prototype={constructor:et,init:function(e,t,n,r,i,o){this.elem=e,this.prop=n,this.easing=i||S.easing._default,this.options=t,this.start=this.now=this.cur(),this.end=r,this.unit=o||(S.cssNumber[n]?"":"px")},cur:function(){var e=et.propHooks[this.prop];return e&&e.get?e.get(this):et.propHooks._default.get(this)},run:function(e){var t,n=et.propHooks[this.prop];return this.options.duration?this.pos=t=S.easing[this.easing](e,this.options.duration*e,0,1,this.options.duration):this.pos=t=e,this.now=(this.end-this.start)*t+this.start,this.options.step&&this.options.step.call(this.elem,this.now,this),n&&n.set?n.set(this):et.propHooks._default.set(this),this}}).init.prototype=et.prototype,(et.propHooks={_default:{get:function(e){var t;return 1!==e.elem.nodeType||null!=e.elem[e.prop]&&null==e.elem.style[e.prop]?e.elem[e.prop]:(t=S.css(e.elem,e.prop,""))&&"auto"!==t?t:0},set:function(e){S.fx.step[e.prop]?S.fx.step[e.prop](e):1!==e.elem.nodeType||!S.cssHooks[e.prop]&&null==e.elem.style[Xe(e.prop)]?e.elem[e.prop]=e.now:S.style(e.elem,e.prop,e.now+e.unit)}}}).scrollTop=et.propHooks.scrollLeft={set:function(e){e.elem.nodeType&&e.elem.parentNode&&(e.elem[e.prop]=e.now)}},S.easing={linear:function(e){return e},swing:function(e){return.5-Math.cos(e*Math.PI)/2},_default:"swing"},S.fx=et.prototype.init,S.fx.step={};var tt,nt,rt,it,ot=/^(?:toggle|show|hide)$/,at=/queueHooks$/;function st(){nt&&(!1===E.hidden&&C.requestAnimationFrame?C.requestAnimationFrame(st):C.setTimeout(st,S.fx.interval),S.fx.tick())}function ut(){return C.setTimeout(function(){tt=void 0}),tt=Date.now()}function lt(e,t){var n,r=0,i={height:e};for(t=t?1:0;r<4;r+=2-t)i["margin"+(n=ne[r])]=i["padding"+n]=e;return t&&(i.opacity=i.width=e),i}function ct(e,t,n){for(var r,i=(ft.tweeners[t]||[]).concat(ft.tweeners["*"]),o=0,a=i.length;o<a;o++)if(r=i[o].call(n,t,e))return r}function ft(o,e,t){var n,a,r=0,i=ft.prefilters.length,s=S.Deferred().always(function(){delete u.elem}),u=function(){if(a)return!1;for(var e=tt||ut(),t=Math.max(0,l.startTime+l.duration-e),n=1-(t/l.duration||0),r=0,i=l.tweens.length;r<i;r++)l.tweens[r].run(n);return s.notifyWith(o,[l,n,t]),n<1&&i?t:(i||s.notifyWith(o,[l,1,0]),s.resolveWith(o,[l]),!1)},l=s.promise({elem:o,props:S.extend({},e),opts:S.extend(!0,{specialEasing:{},easing:S.easing._default},t),originalProperties:e,originalOptions:t,startTime:tt||ut(),duration:t.duration,tweens:[],createTween:function(e,t){var n=S.Tween(o,l.opts,e,t,l.opts.specialEasing[e]||l.opts.easing);return l.tweens.push(n),n},stop:function(e){var t=0,n=e?l.tweens.length:0;if(a)return this;for(a=!0;t<n;t++)l.tweens[t].run(1);return e?(s.notifyWith(o,[l,1,0]),s.resolveWith(o,[l,e])):s.rejectWith(o,[l,e]),this}}),c=l.props;for(!function(e,t){var n,r,i,o,a;for(n in e)if(i=t[r=X(n)],o=e[n],Array.isArray(o)&&(i=o[1],o=e[n]=o[0]),n!==r&&(e[r]=o,delete e[n]),(a=S.cssHooks[r])&&"expand"in a)for(n in o=a.expand(o),delete e[r],o)n in e||(e[n]=o[n],t[n]=i);else t[r]=i}(c,l.opts.specialEasing);r<i;r++)if(n=ft.prefilters[r].call(l,o,c,l.opts))return m(n.stop)&&(S._queueHooks(l.elem,l.opts.queue).stop=n.stop.bind(n)),n;return S.map(c,ct,l),m(l.opts.start)&&l.opts.start.call(o,l),l.progress(l.opts.progress).done(l.opts.done,l.opts.complete).fail(l.opts.fail).always(l.opts.always),S.fx.timer(S.extend(u,{elem:o,anim:l,queue:l.opts.queue})),l}S.Animation=S.extend(ft,{tweeners:{"*":[function(e,t){var n=this.createTween(e,t);return se(n.elem,e,te.exec(t),n),n}]},tweener:function(e,t){m(e)?(t=e,e=["*"]):e=e.match(P);for(var n,r=0,i=e.length;r<i;r++)n=e[r],ft.tweeners[n]=ft.tweeners[n]||[],ft.tweeners[n].unshift(t)},prefilters:[function(e,t,n){var r,i,o,a,s,u,l,c,f="width"in t||"height"in t,p=this,d={},h=e.style,g=e.nodeType&&ae(e),v=Y.get(e,"fxshow");for(r in n.queue||(null==(a=S._queueHooks(e,"fx")).unqueued&&(a.unqueued=0,s=a.empty.fire,a.empty.fire=function(){a.unqueued||s()}),a.unqueued++,p.always(function(){p.always(function(){a.unqueued--,S.queue(e,"fx").length||a.empty.fire()})})),t)if(i=t[r],ot.test(i)){if(delete t[r],o=o||"toggle"===i,i===(g?"hide":"show")){if("show"!==i||!v||void 0===v[r])continue;g=!0}d[r]=v&&v[r]||S.style(e,r)}if((u=!S.isEmptyObject(t))||!S.isEmptyObject(d))for(r in f&&1===e.nodeType&&(n.overflow=[h.overflow,h.overflowX,h.overflowY],null==(l=v&&v.display)&&(l=Y.get(e,"display")),"none"===(c=S.css(e,"display"))&&(l?c=l:(le([e],!0),l=e.style.display||l,c=S.css(e,"display"),le([e]))),("inline"===c||"inline-block"===c&&null!=l)&&"none"===S.css(e,"float")&&(u||(p.done(function(){h.display=l}),null==l&&(c=h.display,l="none"===c?"":c)),h.display="inline-block")),n.overflow&&(h.overflow="hidden",p.always(function(){h.overflow=n.overflow[0],h.overflowX=n.overflow[1],h.overflowY=n.overflow[2]})),u=!1,d)u||(v?"hidden"in v&&(g=v.hidden):v=Y.access(e,"fxshow",{display:l}),o&&(v.hidden=!g),g&&le([e],!0),p.done(function(){for(r in g||le([e]),Y.remove(e,"fxshow"),d)S.style(e,r,d[r])})),u=ct(g?v[r]:0,r,p),r in v||(v[r]=u.start,g&&(u.end=u.start,u.start=0))}],prefilter:function(e,t){t?ft.prefilters.unshift(e):ft.prefilters.push(e)}}),S.speed=function(e,t,n){var r=e&&"object"==typeof e?S.extend({},e):{complete:n||!n&&t||m(e)&&e,duration:e,easing:n&&t||t&&!m(t)&&t};return S.fx.off?r.duration=0:"number"!=typeof r.duration&&(r.duration in S.fx.speeds?r.duration=S.fx.speeds[r.duration]:r.duration=S.fx.speeds._default),null!=r.queue&&!0!==r.queue||(r.queue="fx"),r.old=r.complete,r.complete=function(){m(r.old)&&r.old.call(this),r.queue&&S.dequeue(this,r.queue)},r},S.fn.extend({fadeTo:function(e,t,n,r){return this.filter(ae).css("opacity",0).show().end().animate({opacity:t},e,n,r)},animate:function(t,e,n,r){var i=S.isEmptyObject(t),o=S.speed(e,n,r),a=function(){var e=ft(this,S.extend({},t),o);(i||Y.get(this,"finish"))&&e.stop(!0)};return a.finish=a,i||!1===o.queue?this.each(a):this.queue(o.queue,a)},stop:function(i,e,o){var a=function(e){var t=e.stop;delete e.stop,t(o)};return"string"!=typeof i&&(o=e,e=i,i=void 0),e&&this.queue(i||"fx",[]),this.each(function(){var e=!0,t=null!=i&&i+"queueHooks",n=S.timers,r=Y.get(this);if(t)r[t]&&r[t].stop&&a(r[t]);else for(t in r)r[t]&&r[t].stop&&at.test(t)&&a(r[t]);for(t=n.length;t--;)n[t].elem!==this||null!=i&&n[t].queue!==i||(n[t].anim.stop(o),e=!1,n.splice(t,1));!e&&o||S.dequeue(this,i)})},finish:function(a){return!1!==a&&(a=a||"fx"),this.each(function(){var e,t=Y.get(this),n=t[a+"queue"],r=t[a+"queueHooks"],i=S.timers,o=n?n.length:0;for(t.finish=!0,S.queue(this,a,[]),r&&r.stop&&r.stop.call(this,!0),e=i.length;e--;)i[e].elem===this&&i[e].queue===a&&(i[e].anim.stop(!0),i.splice(e,1));for(e=0;e<o;e++)n[e]&&n[e].finish&&n[e].finish.call(this);delete t.finish})}}),S.each(["toggle","show","hide"],function(e,r){var i=S.fn[r];S.fn[r]=function(e,t,n){return null==e||"boolean"==typeof e?i.apply(this,arguments):this.animate(lt(r,!0),e,t,n)}}),S.each({slideDown:lt("show"),slideUp:lt("hide"),slideToggle:lt("toggle"),fadeIn:{opacity:"show"},fadeOut:{opacity:"hide"},fadeToggle:{opacity:"toggle"}},function(e,r){S.fn[e]=function(e,t,n){return this.animate(r,e,t,n)}}),S.timers=[],S.fx.tick=function(){var e,t=0,n=S.timers;for(tt=Date.now();t<n.length;t++)(e=n[t])()||n[t]!==e||n.splice(t--,1);n.length||S.fx.stop(),tt=void 0},S.fx.timer=function(e){S.timers.push(e),S.fx.start()},S.fx.interval=13,S.fx.start=function(){nt||(nt=!0,st())},S.fx.stop=function(){nt=null},S.fx.speeds={slow:600,fast:200,_default:400},S.fn.delay=function(r,e){return r=S.fx&&S.fx.speeds[r]||r,e=e||"fx",this.queue(e,function(e,t){var n=C.setTimeout(e,r);t.stop=function(){C.clearTimeout(n)}})},rt=E.createElement("input"),it=E.createElement("select").appendChild(E.createElement("option")),rt.type="checkbox",y.checkOn=""!==rt.value,y.optSelected=it.selected,(rt=E.createElement("input")).value="t",rt.type="radio",y.radioValue="t"===rt.value;var pt,dt=S.expr.attrHandle;S.fn.extend({attr:function(e,t){return $(this,S.attr,e,t,1<arguments.length)},removeAttr:function(e){return this.each(function(){S.removeAttr(this,e)})}}),S.extend({attr:function(e,t,n){var r,i,o=e.nodeType;if(3!==o&&8!==o&&2!==o)return"undefined"==typeof e.getAttribute?S.prop(e,t,n):(1===o&&S.isXMLDoc(e)||(i=S.attrHooks[t.toLowerCase()]||(S.expr.match.bool.test(t)?pt:void 0)),void 0!==n?null===n?void S.removeAttr(e,t):i&&"set"in i&&void 0!==(r=i.set(e,n,t))?r:(e.setAttribute(t,n+""),n):i&&"get"in i&&null!==(r=i.get(e,t))?r:null==(r=S.find.attr(e,t))?void 0:r)},attrHooks:{type:{set:function(e,t){if(!y.radioValue&&"radio"===t&&A(e,"input")){var n=e.value;return e.setAttribute("type",t),n&&(e.value=n),t}}}},removeAttr:function(e,t){var n,r=0,i=t&&t.match(P);if(i&&1===e.nodeType)while(n=i[r++])e.removeAttribute(n)}}),pt={set:function(e,t,n){return!1===t?S.removeAttr(e,n):e.setAttribute(n,n),n}},S.each(S.expr.match.bool.source.match(/\w+/g),function(e,t){var a=dt[t]||S.find.attr;dt[t]=function(e,t,n){var r,i,o=t.toLowerCase();return n||(i=dt[o],dt[o]=r,r=null!=a(e,t,n)?o:null,dt[o]=i),r}});var ht=/^(?:input|select|textarea|button)$/i,gt=/^(?:a|area)$/i;function vt(e){return(e.match(P)||[]).join(" ")}function yt(e){return e.getAttribute&&e.getAttribute("class")||""}function mt(e){return Array.isArray(e)?e:"string"==typeof e&&e.match(P)||[]}S.fn.extend({prop:function(e,t){return $(this,S.prop,e,t,1<arguments.length)},removeProp:function(e){return this.each(function(){delete this[S.propFix[e]||e]})}}),S.extend({prop:function(e,t,n){var r,i,o=e.nodeType;if(3!==o&&8!==o&&2!==o)return 1===o&&S.isXMLDoc(e)||(t=S.propFix[t]||t,i=S.propHooks[t]),void 0!==n?i&&"set"in i&&void 0!==(r=i.set(e,n,t))?r:e[t]=n:i&&"get"in i&&null!==(r=i.get(e,t))?r:e[t]},propHooks:{tabIndex:{get:function(e){var t=S.find.attr(e,"tabindex");return t?parseInt(t,10):ht.test(e.nodeName)||gt.test(e.nodeName)&&e.href?0:-1}}},propFix:{"for":"htmlFor","class":"className"}}),y.optSelected||(S.propHooks.selected={get:function(e){var t=e.parentNode;return t&&t.parentNode&&t.parentNode.selectedIndex,null},set:function(e){var t=e.parentNode;t&&(t.selectedIndex,t.parentNode&&t.parentNode.selectedIndex)}}),S.each(["tabIndex","readOnly","maxLength","cellSpacing","cellPadding","rowSpan","colSpan","useMap","frameBorder","contentEditable"],function(){S.propFix[this.toLowerCase()]=this}),S.fn.extend({addClass:function(t){var e,n,r,i,o,a,s,u=0;if(m(t))return this.each(function(e){S(this).addClass(t.call(this,e,yt(this)))});if((e=mt(t)).length)while(n=this[u++])if(i=yt(n),r=1===n.nodeType&&" "+vt(i)+" "){a=0;while(o=e[a++])r.indexOf(" "+o+" ")<0&&(r+=o+" ");i!==(s=vt(r))&&n.setAttribute("class",s)}return this},removeClass:function(t){var e,n,r,i,o,a,s,u=0;if(m(t))return this.each(function(e){S(this).removeClass(t.call(this,e,yt(this)))});if(!arguments.length)return this.attr("class","");if((e=mt(t)).length)while(n=this[u++])if(i=yt(n),r=1===n.nodeType&&" "+vt(i)+" "){a=0;while(o=e[a++])while(-1<r.indexOf(" "+o+" "))r=r.replace(" "+o+" "," ");i!==(s=vt(r))&&n.setAttribute("class",s)}return this},toggleClass:function(i,t){var o=typeof i,a="string"===o||Array.isArray(i);return"boolean"==typeof t&&a?t?this.addClass(i):this.removeClass(i):m(i)?this.each(function(e){S(this).toggleClass(i.call(this,e,yt(this),t),t)}):this.each(function(){var e,t,n,r;if(a){t=0,n=S(this),r=mt(i);while(e=r[t++])n.hasClass(e)?n.removeClass(e):n.addClass(e)}else void 0!==i&&"boolean"!==o||((e=yt(this))&&Y.set(this,"__className__",e),this.setAttribute&&this.setAttribute("class",e||!1===i?"":Y.get(this,"__className__")||""))})},hasClass:function(e){var t,n,r=0;t=" "+e+" ";while(n=this[r++])if(1===n.nodeType&&-1<(" "+vt(yt(n))+" ").indexOf(t))return!0;return!1}});var xt=/\r/g;S.fn.extend({val:function(n){var r,e,i,t=this[0];return arguments.length?(i=m(n),this.each(function(e){var t;1===this.nodeType&&(null==(t=i?n.call(this,e,S(this).val()):n)?t="":"number"==typeof t?t+="":Array.isArray(t)&&(t=S.map(t,function(e){return null==e?"":e+""})),(r=S.valHooks[this.type]||S.valHooks[this.nodeName.toLowerCase()])&&"set"in r&&void 0!==r.set(this,t,"value")||(this.value=t))})):t?(r=S.valHooks[t.type]||S.valHooks[t.nodeName.toLowerCase()])&&"get"in r&&void 0!==(e=r.get(t,"value"))?e:"string"==typeof(e=t.value)?e.replace(xt,""):null==e?"":e:void 0}}),S.extend({valHooks:{option:{get:function(e){var t=S.find.attr(e,"value");return null!=t?t:vt(S.text(e))}},select:{get:function(e){var t,n,r,i=e.options,o=e.selectedIndex,a="select-one"===e.type,s=a?null:[],u=a?o+1:i.length;for(r=o<0?u:a?o:0;r<u;r++)if(((n=i[r]).selected||r===o)&&!n.disabled&&(!n.parentNode.disabled||!A(n.parentNode,"optgroup"))){if(t=S(n).val(),a)return t;s.push(t)}return s},set:function(e,t){var n,r,i=e.options,o=S.makeArray(t),a=i.length;while(a--)((r=i[a]).selected=-1<S.inArray(S.valHooks.option.get(r),o))&&(n=!0);return n||(e.selectedIndex=-1),o}}}}),S.each(["radio","checkbox"],function(){S.valHooks[this]={set:function(e,t){if(Array.isArray(t))return e.checked=-1<S.inArray(S(e).val(),t)}},y.checkOn||(S.valHooks[this].get=function(e){return null===e.getAttribute("value")?"on":e.value})}),y.focusin="onfocusin"in C;var bt=/^(?:focusinfocus|focusoutblur)$/,wt=function(e){e.stopPropagation()};S.extend(S.event,{trigger:function(e,t,n,r){var i,o,a,s,u,l,c,f,p=[n||E],d=v.call(e,"type")?e.type:e,h=v.call(e,"namespace")?e.namespace.split("."):[];if(o=f=a=n=n||E,3!==n.nodeType&&8!==n.nodeType&&!bt.test(d+S.event.triggered)&&(-1<d.indexOf(".")&&(d=(h=d.split(".")).shift(),h.sort()),u=d.indexOf(":")<0&&"on"+d,(e=e[S.expando]?e:new S.Event(d,"object"==typeof e&&e)).isTrigger=r?2:3,e.namespace=h.join("."),e.rnamespace=e.namespace?new RegExp("(^|\\.)"+h.join("\\.(?:.*\\.|)")+"(\\.|$)"):null,e.result=void 0,e.target||(e.target=n),t=null==t?[e]:S.makeArray(t,[e]),c=S.event.special[d]||{},r||!c.trigger||!1!==c.trigger.apply(n,t))){if(!r&&!c.noBubble&&!x(n)){for(s=c.delegateType||d,bt.test(s+d)||(o=o.parentNode);o;o=o.parentNode)p.push(o),a=o;a===(n.ownerDocument||E)&&p.push(a.defaultView||a.parentWindow||C)}i=0;while((o=p[i++])&&!e.isPropagationStopped())f=o,e.type=1<i?s:c.bindType||d,(l=(Y.get(o,"events")||Object.create(null))[e.type]&&Y.get(o,"handle"))&&l.apply(o,t),(l=u&&o[u])&&l.apply&&V(o)&&(e.result=l.apply(o,t),!1===e.result&&e.preventDefault());return e.type=d,r||e.isDefaultPrevented()||c._default&&!1!==c._default.apply(p.pop(),t)||!V(n)||u&&m(n[d])&&!x(n)&&((a=n[u])&&(n[u]=null),S.event.triggered=d,e.isPropagationStopped()&&f.addEventListener(d,wt),n[d](),e.isPropagationStopped()&&f.removeEventListener(d,wt),S.event.triggered=void 0,a&&(n[u]=a)),e.result}},simulate:function(e,t,n){var r=S.extend(new S.Event,n,{type:e,isSimulated:!0});S.event.trigger(r,null,t)}}),S.fn.extend({trigger:function(e,t){return this.each(function(){S.event.trigger(e,t,this)})},triggerHandler:function(e,t){var n=this[0];if(n)return S.event.trigger(e,t,n,!0)}}),y.focusin||S.each({focus:"focusin",blur:"focusout"},function(n,r){var i=function(e){S.event.simulate(r,e.target,S.event.fix(e))};S.event.special[r]={setup:function(){var e=this.ownerDocument||this.document||this,t=Y.access(e,r);t||e.addEventListener(n,i,!0),Y.access(e,r,(t||0)+1)},teardown:function(){var e=this.ownerDocument||this.document||this,t=Y.access(e,r)-1;t?Y.access(e,r,t):(e.removeEventListener(n,i,!0),Y.remove(e,r))}}});var Tt=C.location,Ct={guid:Date.now()},Et=/\?/;S.parseXML=function(e){var t;if(!e||"string"!=typeof e)return null;try{t=(new C.DOMParser).parseFromString(e,"text/xml")}catch(e){t=void 0}return t&&!t.getElementsByTagName("parsererror").length||S.error("Invalid XML: "+e),t};var St=/\[\]$/,kt=/\r?\n/g,At=/^(?:submit|button|image|reset|file)$/i,Nt=/^(?:input|select|textarea|keygen)/i;function Dt(n,e,r,i){var t;if(Array.isArray(e))S.each(e,function(e,t){r||St.test(n)?i(n,t):Dt(n+"["+("object"==typeof t&&null!=t?e:"")+"]",t,r,i)});else if(r||"object"!==w(e))i(n,e);else for(t in e)Dt(n+"["+t+"]",e[t],r,i)}S.param=function(e,t){var n,r=[],i=function(e,t){var n=m(t)?t():t;r[r.length]=encodeURIComponent(e)+"="+encodeURIComponent(null==n?"":n)};if(null==e)return"";if(Array.isArray(e)||e.jquery&&!S.isPlainObject(e))S.each(e,function(){i(this.name,this.value)});else for(n in e)Dt(n,e[n],t,i);return r.join("&")},S.fn.extend({serialize:function(){return S.param(this.serializeArray())},serializeArray:function(){return this.map(function(){var e=S.prop(this,"elements");return e?S.makeArray(e):this}).filter(function(){var e=this.type;return this.name&&!S(this).is(":disabled")&&Nt.test(this.nodeName)&&!At.test(e)&&(this.checked||!pe.test(e))}).map(function(e,t){var n=S(this).val();return null==n?null:Array.isArray(n)?S.map(n,function(e){return{name:t.name,value:e.replace(kt,"\r\n")}}):{name:t.name,value:n.replace(kt,"\r\n")}}).get()}});var jt=/%20/g,qt=/#.*$/,Lt=/([?&])_=[^&]*/,Ht=/^(.*?):[ \t]*([^\r\n]*)$/gm,Ot=/^(?:GET|HEAD)$/,Pt=/^\/\//,Rt={},Mt={},It="*/".concat("*"),Wt=E.createElement("a");function Ft(o){return function(e,t){"string"!=typeof e&&(t=e,e="*");var n,r=0,i=e.toLowerCase().match(P)||[];if(m(t))while(n=i[r++])"+"===n[0]?(n=n.slice(1)||"*",(o[n]=o[n]||[]).unshift(t)):(o[n]=o[n]||[]).push(t)}}function Bt(t,i,o,a){var s={},u=t===Mt;function l(e){var r;return s[e]=!0,S.each(t[e]||[],function(e,t){var n=t(i,o,a);return"string"!=typeof n||u||s[n]?u?!(r=n):void 0:(i.dataTypes.unshift(n),l(n),!1)}),r}return l(i.dataTypes[0])||!s["*"]&&l("*")}function $t(e,t){var n,r,i=S.ajaxSettings.flatOptions||{};for(n in t)void 0!==t[n]&&((i[n]?e:r||(r={}))[n]=t[n]);return r&&S.extend(!0,e,r),e}Wt.href=Tt.href,S.extend({active:0,lastModified:{},etag:{},ajaxSettings:{url:Tt.href,type:"GET",isLocal:/^(?:about|app|app-storage|.+-extension|file|res|widget):$/.test(Tt.protocol),global:!0,processData:!0,async:!0,contentType:"application/x-www-form-urlencoded; charset=UTF-8",accepts:{"*":It,text:"text/plain",html:"text/html",xml:"application/xml, text/xml",json:"application/json, text/javascript"},contents:{xml:/\bxml\b/,html:/\bhtml/,json:/\bjson\b/},responseFields:{xml:"responseXML",text:"responseText",json:"responseJSON"},converters:{"* text":String,"text html":!0,"text json":JSON.parse,"text xml":S.parseXML},flatOptions:{url:!0,context:!0}},ajaxSetup:function(e,t){return t?$t($t(e,S.ajaxSettings),t):$t(S.ajaxSettings,e)},ajaxPrefilter:Ft(Rt),ajaxTransport:Ft(Mt),ajax:function(e,t){"object"==typeof e&&(t=e,e=void 0),t=t||{};var c,f,p,n,d,r,h,g,i,o,v=S.ajaxSetup({},t),y=v.context||v,m=v.context&&(y.nodeType||y.jquery)?S(y):S.event,x=S.Deferred(),b=S.Callbacks("once memory"),w=v.statusCode||{},a={},s={},u="canceled",T={readyState:0,getResponseHeader:function(e){var t;if(h){if(!n){n={};while(t=Ht.exec(p))n[t[1].toLowerCase()+" "]=(n[t[1].toLowerCase()+" "]||[]).concat(t[2])}t=n[e.toLowerCase()+" "]}return null==t?null:t.join(", ")},getAllResponseHeaders:function(){return h?p:null},setRequestHeader:function(e,t){return null==h&&(e=s[e.toLowerCase()]=s[e.toLowerCase()]||e,a[e]=t),this},overrideMimeType:function(e){return null==h&&(v.mimeType=e),this},statusCode:function(e){var t;if(e)if(h)T.always(e[T.status]);else for(t in e)w[t]=[w[t],e[t]];return this},abort:function(e){var t=e||u;return c&&c.abort(t),l(0,t),this}};if(x.promise(T),v.url=((e||v.url||Tt.href)+"").replace(Pt,Tt.protocol+"//"),v.type=t.method||t.type||v.method||v.type,v.dataTypes=(v.dataType||"*").toLowerCase().match(P)||[""],null==v.crossDomain){r=E.createElement("a");try{r.href=v.url,r.href=r.href,v.crossDomain=Wt.protocol+"//"+Wt.host!=r.protocol+"//"+r.host}catch(e){v.crossDomain=!0}}if(v.data&&v.processData&&"string"!=typeof v.data&&(v.data=S.param(v.data,v.traditional)),Bt(Rt,v,t,T),h)return T;for(i in(g=S.event&&v.global)&&0==S.active++&&S.event.trigger("ajaxStart"),v.type=v.type.toUpperCase(),v.hasContent=!Ot.test(v.type),f=v.url.replace(qt,""),v.hasContent?v.data&&v.processData&&0===(v.contentType||"").indexOf("application/x-www-form-urlencoded")&&(v.data=v.data.replace(jt,"+")):(o=v.url.slice(f.length),v.data&&(v.processData||"string"==typeof v.data)&&(f+=(Et.test(f)?"&":"?")+v.data,delete v.data),!1===v.cache&&(f=f.replace(Lt,"$1"),o=(Et.test(f)?"&":"?")+"_="+Ct.guid+++o),v.url=f+o),v.ifModified&&(S.lastModified[f]&&T.setRequestHeader("If-Modified-Since",S.lastModified[f]),S.etag[f]&&T.setRequestHeader("If-None-Match",S.etag[f])),(v.data&&v.hasContent&&!1!==v.contentType||t.contentType)&&T.setRequestHeader("Content-Type",v.contentType),T.setRequestHeader("Accept",v.dataTypes[0]&&v.accepts[v.dataTypes[0]]?v.accepts[v.dataTypes[0]]+("*"!==v.dataTypes[0]?", "+It+"; q=0.01":""):v.accepts["*"]),v.headers)T.setRequestHeader(i,v.headers[i]);if(v.beforeSend&&(!1===v.beforeSend.call(y,T,v)||h))return T.abort();if(u="abort",b.add(v.complete),T.done(v.success),T.fail(v.error),c=Bt(Mt,v,t,T)){if(T.readyState=1,g&&m.trigger("ajaxSend",[T,v]),h)return T;v.async&&0<v.timeout&&(d=C.setTimeout(function(){T.abort("timeout")},v.timeout));try{h=!1,c.send(a,l)}catch(e){if(h)throw e;l(-1,e)}}else l(-1,"No Transport");function l(e,t,n,r){var i,o,a,s,u,l=t;h||(h=!0,d&&C.clearTimeout(d),c=void 0,p=r||"",T.readyState=0<e?4:0,i=200<=e&&e<300||304===e,n&&(s=function(e,t,n){var r,i,o,a,s=e.contents,u=e.dataTypes;while("*"===u[0])u.shift(),void 0===r&&(r=e.mimeType||t.getResponseHeader("Content-Type"));if(r)for(i in s)if(s[i]&&s[i].test(r)){u.unshift(i);break}if(u[0]in n)o=u[0];else{for(i in n){if(!u[0]||e.converters[i+" "+u[0]]){o=i;break}a||(a=i)}o=o||a}if(o)return o!==u[0]&&u.unshift(o),n[o]}(v,T,n)),!i&&-1<S.inArray("script",v.dataTypes)&&(v.converters["text script"]=function(){}),s=function(e,t,n,r){var i,o,a,s,u,l={},c=e.dataTypes.slice();if(c[1])for(a in e.converters)l[a.toLowerCase()]=e.converters[a];o=c.shift();while(o)if(e.responseFields[o]&&(n[e.responseFields[o]]=t),!u&&r&&e.dataFilter&&(t=e.dataFilter(t,e.dataType)),u=o,o=c.shift())if("*"===o)o=u;else if("*"!==u&&u!==o){if(!(a=l[u+" "+o]||l["* "+o]))for(i in l)if((s=i.split(" "))[1]===o&&(a=l[u+" "+s[0]]||l["* "+s[0]])){!0===a?a=l[i]:!0!==l[i]&&(o=s[0],c.unshift(s[1]));break}if(!0!==a)if(a&&e["throws"])t=a(t);else try{t=a(t)}catch(e){return{state:"parsererror",error:a?e:"No conversion from "+u+" to "+o}}}return{state:"success",data:t}}(v,s,T,i),i?(v.ifModified&&((u=T.getResponseHeader("Last-Modified"))&&(S.lastModified[f]=u),(u=T.getResponseHeader("etag"))&&(S.etag[f]=u)),204===e||"HEAD"===v.type?l="nocontent":304===e?l="notmodified":(l=s.state,o=s.data,i=!(a=s.error))):(a=l,!e&&l||(l="error",e<0&&(e=0))),T.status=e,T.statusText=(t||l)+"",i?x.resolveWith(y,[o,l,T]):x.rejectWith(y,[T,l,a]),T.statusCode(w),w=void 0,g&&m.trigger(i?"ajaxSuccess":"ajaxError",[T,v,i?o:a]),b.fireWith(y,[T,l]),g&&(m.trigger("ajaxComplete",[T,v]),--S.active||S.event.trigger("ajaxStop")))}return T},getJSON:function(e,t,n){return S.get(e,t,n,"json")},getScript:function(e,t){return S.get(e,void 0,t,"script")}}),S.each(["get","post"],function(e,i){S[i]=function(e,t,n,r){return m(t)&&(r=r||n,n=t,t=void 0),S.ajax(S.extend({url:e,type:i,dataType:r,data:t,success:n},S.isPlainObject(e)&&e))}}),S.ajaxPrefilter(function(e){var t;for(t in e.headers)"content-type"===t.toLowerCase()&&(e.contentType=e.headers[t]||"")}),S._evalUrl=function(e,t,n){return S.ajax({url:e,type:"GET",dataType:"script",cache:!0,async:!1,global:!1,converters:{"text script":function(){}},dataFilter:function(e){S.globalEval(e,t,n)}})},S.fn.extend({wrapAll:function(e){var t;return this[0]&&(m(e)&&(e=e.call(this[0])),t=S(e,this[0].ownerDocument).eq(0).clone(!0),this[0].parentNode&&t.insertBefore(this[0]),t.map(function(){var e=this;while(e.firstElementChild)e=e.firstElementChild;return e}).append(this)),this},wrapInner:function(n){return m(n)?this.each(function(e){S(this).wrapInner(n.call(this,e))}):this.each(function(){var e=S(this),t=e.contents();t.length?t.wrapAll(n):e.append(n)})},wrap:function(t){var n=m(t);return this.each(function(e){S(this).wrapAll(n?t.call(this,e):t)})},unwrap:function(e){return this.parent(e).not("body").each(function(){S(this).replaceWith(this.childNodes)}),this}}),S.expr.pseudos.hidden=function(e){return!S.expr.pseudos.visible(e)},S.expr.pseudos.visible=function(e){return!!(e.offsetWidth||e.offsetHeight||e.getClientRects().length)},S.ajaxSettings.xhr=function(){try{return new C.XMLHttpRequest}catch(e){}};var _t={0:200,1223:204},zt=S.ajaxSettings.xhr();y.cors=!!zt&&"withCredentials"in zt,y.ajax=zt=!!zt,S.ajaxTransport(function(i){var o,a;if(y.cors||zt&&!i.crossDomain)return{send:function(e,t){var n,r=i.xhr();if(r.open(i.type,i.url,i.async,i.username,i.password),i.xhrFields)for(n in i.xhrFields)r[n]=i.xhrFields[n];for(n in i.mimeType&&r.overrideMimeType&&r.overrideMimeType(i.mimeType),i.crossDomain||e["X-Requested-With"]||(e["X-Requested-With"]="XMLHttpRequest"),e)r.setRequestHeader(n,e[n]);o=function(e){return function(){o&&(o=a=r.onload=r.onerror=r.onabort=r.ontimeout=r.onreadystatechange=null,"abort"===e?r.abort():"error"===e?"number"!=typeof r.status?t(0,"error"):t(r.status,r.statusText):t(_t[r.status]||r.status,r.statusText,"text"!==(r.responseType||"text")||"string"!=typeof r.responseText?{binary:r.response}:{text:r.responseText},r.getAllResponseHeaders()))}},r.onload=o(),a=r.onerror=r.ontimeout=o("error"),void 0!==r.onabort?r.onabort=a:r.onreadystatechange=function(){4===r.readyState&&C.setTimeout(function(){o&&a()})},o=o("abort");try{r.send(i.hasContent&&i.data||null)}catch(e){if(o)throw e}},abort:function(){o&&o()}}}),S.ajaxPrefilter(function(e){e.crossDomain&&(e.contents.script=!1)}),S.ajaxSetup({accepts:{script:"text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"},contents:{script:/\b(?:java|ecma)script\b/},converters:{"text script":function(e){return S.globalEval(e),e}}}),S.ajaxPrefilter("script",function(e){void 0===e.cache&&(e.cache=!1),e.crossDomain&&(e.type="GET")}),S.ajaxTransport("script",function(n){var r,i;if(n.crossDomain||n.scriptAttrs)return{send:function(e,t){r=S("<script>").attr(n.scriptAttrs||{}).prop({charset:n.scriptCharset,src:n.url}).on("load error",i=function(e){r.remove(),i=null,e&&t("error"===e.type?404:200,e.type)}),E.head.appendChild(r[0])},abort:function(){i&&i()}}});var Ut,Xt=[],Vt=/(=)\?(?=&|$)|\?\?/;S.ajaxSetup({jsonp:"callback",jsonpCallback:function(){var e=Xt.pop()||S.expando+"_"+Ct.guid++;return this[e]=!0,e}}),S.ajaxPrefilter("json jsonp",function(e,t,n){var r,i,o,a=!1!==e.jsonp&&(Vt.test(e.url)?"url":"string"==typeof e.data&&0===(e.contentType||"").indexOf("application/x-www-form-urlencoded")&&Vt.test(e.data)&&"data");if(a||"jsonp"===e.dataTypes[0])return r=e.jsonpCallback=m(e.jsonpCallback)?e.jsonpCallback():e.jsonpCallback,a?e[a]=e[a].replace(Vt,"$1"+r):!1!==e.jsonp&&(e.url+=(Et.test(e.url)?"&":"?")+e.jsonp+"="+r),e.converters["script json"]=function(){return o||S.error(r+" was not called"),o[0]},e.dataTypes[0]="json",i=C[r],C[r]=function(){o=arguments},n.always(function(){void 0===i?S(C).removeProp(r):C[r]=i,e[r]&&(e.jsonpCallback=t.jsonpCallback,Xt.push(r)),o&&m(i)&&i(o[0]),o=i=void 0}),"script"}),y.createHTMLDocument=((Ut=E.implementation.createHTMLDocument("").body).innerHTML="<form></form><form></form>",2===Ut.childNodes.length),S.parseHTML=function(e,t,n){return"string"!=typeof e?[]:("boolean"==typeof t&&(n=t,t=!1),t||(y.createHTMLDocument?((r=(t=E.implementation.createHTMLDocument("")).createElement("base")).href=E.location.href,t.head.appendChild(r)):t=E),o=!n&&[],(i=N.exec(e))?[t.createElement(i[1])]:(i=xe([e],t,o),o&&o.length&&S(o).remove(),S.merge([],i.childNodes)));var r,i,o},S.fn.load=function(e,t,n){var r,i,o,a=this,s=e.indexOf(" ");return-1<s&&(r=vt(e.slice(s)),e=e.slice(0,s)),m(t)?(n=t,t=void 0):t&&"object"==typeof t&&(i="POST"),0<a.length&&S.ajax({url:e,type:i||"GET",dataType:"html",data:t}).done(function(e){o=arguments,a.html(r?S("<div>").append(S.parseHTML(e)).find(r):e)}).always(n&&function(e,t){a.each(function(){n.apply(this,o||[e.responseText,t,e])})}),this},S.expr.pseudos.animated=function(t){return S.grep(S.timers,function(e){return t===e.elem}).length},S.offset={setOffset:function(e,t,n){var r,i,o,a,s,u,l=S.css(e,"position"),c=S(e),f={};"static"===l&&(e.style.position="relative"),s=c.offset(),o=S.css(e,"top"),u=S.css(e,"left"),("absolute"===l||"fixed"===l)&&-1<(o+u).indexOf("auto")?(a=(r=c.position()).top,i=r.left):(a=parseFloat(o)||0,i=parseFloat(u)||0),m(t)&&(t=t.call(e,n,S.extend({},s))),null!=t.top&&(f.top=t.top-s.top+a),null!=t.left&&(f.left=t.left-s.left+i),"using"in t?t.using.call(e,f):("number"==typeof f.top&&(f.top+="px"),"number"==typeof f.left&&(f.left+="px"),c.css(f))}},S.fn.extend({offset:function(t){if(arguments.length)return void 0===t?this:this.each(function(e){S.offset.setOffset(this,t,e)});var e,n,r=this[0];return r?r.getClientRects().length?(e=r.getBoundingClientRect(),n=r.ownerDocument.defaultView,{top:e.top+n.pageYOffset,left:e.left+n.pageXOffset}):{top:0,left:0}:void 0},position:function(){if(this[0]){var e,t,n,r=this[0],i={top:0,left:0};if("fixed"===S.css(r,"position"))t=r.getBoundingClientRect();else{t=this.offset(),n=r.ownerDocument,e=r.offsetParent||n.documentElement;while(e&&(e===n.body||e===n.documentElement)&&"static"===S.css(e,"position"))e=e.parentNode;e&&e!==r&&1===e.nodeType&&((i=S(e).offset()).top+=S.css(e,"borderTopWidth",!0),i.left+=S.css(e,"borderLeftWidth",!0))}return{top:t.top-i.top-S.css(r,"marginTop",!0),left:t.left-i.left-S.css(r,"marginLeft",!0)}}},offsetParent:function(){return this.map(function(){var e=this.offsetParent;while(e&&"static"===S.css(e,"position"))e=e.offsetParent;return e||re})}}),S.each({scrollLeft:"pageXOffset",scrollTop:"pageYOffset"},function(t,i){var o="pageYOffset"===i;S.fn[t]=function(e){return $(this,function(e,t,n){var r;if(x(e)?r=e:9===e.nodeType&&(r=e.defaultView),void 0===n)return r?r[i]:e[t];r?r.scrollTo(o?r.pageXOffset:n,o?n:r.pageYOffset):e[t]=n},t,e,arguments.length)}}),S.each(["top","left"],function(e,n){S.cssHooks[n]=$e(y.pixelPosition,function(e,t){if(t)return t=Be(e,n),Me.test(t)?S(e).position()[n]+"px":t})}),S.each({Height:"height",Width:"width"},function(a,s){S.each({padding:"inner"+a,content:s,"":"outer"+a},function(r,o){S.fn[o]=function(e,t){var n=arguments.length&&(r||"boolean"!=typeof e),i=r||(!0===e||!0===t?"margin":"border");return $(this,function(e,t,n){var r;return x(e)?0===o.indexOf("outer")?e["inner"+a]:e.document.documentElement["client"+a]:9===e.nodeType?(r=e.documentElement,Math.max(e.body["scroll"+a],r["scroll"+a],e.body["offset"+a],r["offset"+a],r["client"+a])):void 0===n?S.css(e,t,i):S.style(e,t,n,i)},s,n?e:void 0,n)}})}),S.each(["ajaxStart","ajaxStop","ajaxComplete","ajaxError","ajaxSuccess","ajaxSend"],function(e,t){S.fn[t]=function(e){return this.on(t,e)}}),S.fn.extend({bind:function(e,t,n){return this.on(e,null,t,n)},unbind:function(e,t){return this.off(e,null,t)},delegate:function(e,t,n,r){return this.on(t,e,n,r)},undelegate:function(e,t,n){return 1===arguments.length?this.off(e,"**"):this.off(t,e||"**",n)},hover:function(e,t){return this.mouseenter(e).mouseleave(t||e)}}),S.each("blur focus focusin focusout resize scroll click dblclick mousedown mouseup mousemove mouseover mouseout mouseenter mouseleave change select submit keydown keypress keyup contextmenu".split(" "),function(e,n){S.fn[n]=function(e,t){return 0<arguments.length?this.on(n,null,e,t):this.trigger(n)}});var Gt=/^[\s\uFEFF\xA0]+|[\s\uFEFF\xA0]+$/g;S.proxy=function(e,t){var n,r,i;if("string"==typeof t&&(n=e[t],t=e,e=n),m(e))return r=s.call(arguments,2),(i=function(){return e.apply(t||this,r.concat(s.call(arguments)))}).guid=e.guid=e.guid||S.guid++,i},S.holdReady=function(e){e?S.readyWait++:S.ready(!0)},S.isArray=Array.isArray,S.parseJSON=JSON.parse,S.nodeName=A,S.isFunction=m,S.isWindow=x,S.camelCase=X,S.type=w,S.now=Date.now,S.isNumeric=function(e){var t=S.type(e);return("number"===t||"string"===t)&&!isNaN(e-parseFloat(e))},S.trim=function(e){return null==e?"":(e+"").replace(Gt,"")},"function"==typeof define&&define.amd&&define("jquery",[],function(){return S});var Yt=C.jQuery,Qt=C.$;return S.noConflict=function(e){return C.$===S&&(C.$=Qt),e&&C.jQuery===S&&(C.jQuery=Yt),S},"undefined"==typeof e&&(C.jQuery=C.$=S),S});
diff --git a/_static/language_data.js b/_static/language_data.js
index d2b4ee91b..250f5665f 100644
--- a/_static/language_data.js
+++ b/_static/language_data.js
@@ -5,15 +5,16 @@
  * This script contains the language-specific data used by searchtools.js,
  * namely the list of stopwords, stemmer, scorer and splitter.
  *
- * :copyright: Copyright 2007-2020 by the Sphinx team, see AUTHORS.
+ * :copyright: Copyright 2007-2023 by the Sphinx team, see AUTHORS.
  * :license: BSD, see LICENSE for details.
  *
  */
 
-var stopwords = ["a","and","are","as","at","be","but","by","for","if","in","into","is","it","near","no","not","of","on","or","such","that","the","their","then","there","these","they","this","to","was","will","with"];
+var stopwords = ["a", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "near", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to", "was", "will", "with"];
 
 
-/* Non-minified version JS is _stemmer.js if file is provided */ 
+/* Non-minified version is copied as a separate JS file, is available */
+
 /**
  * Porter Stemmer
  */
@@ -196,102 +197,3 @@ var Stemmer = function() {
   }
 }
 
-
-
-
-
-var splitChars = (function() {
-    var result = {};
-    var singles = [96, 180, 187, 191, 215, 247, 749, 885, 903, 907, 909, 930, 1014, 1648,
-         1748, 1809, 2416, 2473, 2481, 2526, 2601, 2609, 2612, 2615, 2653, 2702,
-         2706, 2729, 2737, 2740, 2857, 2865, 2868, 2910, 2928, 2948, 2961, 2971,
-         2973, 3085, 3089, 3113, 3124, 3213, 3217, 3241, 3252, 3295, 3341, 3345,
-         3369, 3506, 3516, 3633, 3715, 3721, 3736, 3744, 3748, 3750, 3756, 3761,
-         3781, 3912, 4239, 4347, 4681, 4695, 4697, 4745, 4785, 4799, 4801, 4823,
-         4881, 5760, 5901, 5997, 6313, 7405, 8024, 8026, 8028, 8030, 8117, 8125,
-         8133, 8181, 8468, 8485, 8487, 8489, 8494, 8527, 11311, 11359, 11687, 11695,
-         11703, 11711, 11719, 11727, 11735, 12448, 12539, 43010, 43014, 43019, 43587,
-         43696, 43713, 64286, 64297, 64311, 64317, 64319, 64322, 64325, 65141];
-    var i, j, start, end;
-    for (i = 0; i < singles.length; i++) {
-        result[singles[i]] = true;
-    }
-    var ranges = [[0, 47], [58, 64], [91, 94], [123, 169], [171, 177], [182, 184], [706, 709],
-         [722, 735], [741, 747], [751, 879], [888, 889], [894, 901], [1154, 1161],
-         [1318, 1328], [1367, 1368], [1370, 1376], [1416, 1487], [1515, 1519], [1523, 1568],
-         [1611, 1631], [1642, 1645], [1750, 1764], [1767, 1773], [1789, 1790], [1792, 1807],
-         [1840, 1868], [1958, 1968], [1970, 1983], [2027, 2035], [2038, 2041], [2043, 2047],
-         [2070, 2073], [2075, 2083], [2085, 2087], [2089, 2307], [2362, 2364], [2366, 2383],
-         [2385, 2391], [2402, 2405], [2419, 2424], [2432, 2436], [2445, 2446], [2449, 2450],
-         [2483, 2485], [2490, 2492], [2494, 2509], [2511, 2523], [2530, 2533], [2546, 2547],
-         [2554, 2564], [2571, 2574], [2577, 2578], [2618, 2648], [2655, 2661], [2672, 2673],
-         [2677, 2692], [2746, 2748], [2750, 2767], [2769, 2783], [2786, 2789], [2800, 2820],
-         [2829, 2830], [2833, 2834], [2874, 2876], [2878, 2907], [2914, 2917], [2930, 2946],
-         [2955, 2957], [2966, 2968], [2976, 2978], [2981, 2983], [2987, 2989], [3002, 3023],
-         [3025, 3045], [3059, 3076], [3130, 3132], [3134, 3159], [3162, 3167], [3170, 3173],
-         [3184, 3191], [3199, 3204], [3258, 3260], [3262, 3293], [3298, 3301], [3312, 3332],
-         [3386, 3388], [3390, 3423], [3426, 3429], [3446, 3449], [3456, 3460], [3479, 3481],
-         [3518, 3519], [3527, 3584], [3636, 3647], [3655, 3663], [3674, 3712], [3717, 3718],
-         [3723, 3724], [3726, 3731], [3752, 3753], [3764, 3772], [3774, 3775], [3783, 3791],
-         [3802, 3803], [3806, 3839], [3841, 3871], [3892, 3903], [3949, 3975], [3980, 4095],
-         [4139, 4158], [4170, 4175], [4182, 4185], [4190, 4192], [4194, 4196], [4199, 4205],
-         [4209, 4212], [4226, 4237], [4250, 4255], [4294, 4303], [4349, 4351], [4686, 4687],
-         [4702, 4703], [4750, 4751], [4790, 4791], [4806, 4807], [4886, 4887], [4955, 4968],
-         [4989, 4991], [5008, 5023], [5109, 5120], [5741, 5742], [5787, 5791], [5867, 5869],
-         [5873, 5887], [5906, 5919], [5938, 5951], [5970, 5983], [6001, 6015], [6068, 6102],
-         [6104, 6107], [6109, 6111], [6122, 6127], [6138, 6159], [6170, 6175], [6264, 6271],
-         [6315, 6319], [6390, 6399], [6429, 6469], [6510, 6511], [6517, 6527], [6572, 6592],
-         [6600, 6607], [6619, 6655], [6679, 6687], [6741, 6783], [6794, 6799], [6810, 6822],
-         [6824, 6916], [6964, 6980], [6988, 6991], [7002, 7042], [7073, 7085], [7098, 7167],
-         [7204, 7231], [7242, 7244], [7294, 7400], [7410, 7423], [7616, 7679], [7958, 7959],
-         [7966, 7967], [8006, 8007], [8014, 8015], [8062, 8063], [8127, 8129], [8141, 8143],
-         [8148, 8149], [8156, 8159], [8173, 8177], [8189, 8303], [8306, 8307], [8314, 8318],
-         [8330, 8335], [8341, 8449], [8451, 8454], [8456, 8457], [8470, 8472], [8478, 8483],
-         [8506, 8507], [8512, 8516], [8522, 8525], [8586, 9311], [9372, 9449], [9472, 10101],
-         [10132, 11263], [11493, 11498], [11503, 11516], [11518, 11519], [11558, 11567],
-         [11622, 11630], [11632, 11647], [11671, 11679], [11743, 11822], [11824, 12292],
-         [12296, 12320], [12330, 12336], [12342, 12343], [12349, 12352], [12439, 12444],
-         [12544, 12548], [12590, 12592], [12687, 12689], [12694, 12703], [12728, 12783],
-         [12800, 12831], [12842, 12880], [12896, 12927], [12938, 12976], [12992, 13311],
-         [19894, 19967], [40908, 40959], [42125, 42191], [42238, 42239], [42509, 42511],
-         [42540, 42559], [42592, 42593], [42607, 42622], [42648, 42655], [42736, 42774],
-         [42784, 42785], [42889, 42890], [42893, 43002], [43043, 43055], [43062, 43071],
-         [43124, 43137], [43188, 43215], [43226, 43249], [43256, 43258], [43260, 43263],
-         [43302, 43311], [43335, 43359], [43389, 43395], [43443, 43470], [43482, 43519],
-         [43561, 43583], [43596, 43599], [43610, 43615], [43639, 43641], [43643, 43647],
-         [43698, 43700], [43703, 43704], [43710, 43711], [43715, 43738], [43742, 43967],
-         [44003, 44015], [44026, 44031], [55204, 55215], [55239, 55242], [55292, 55295],
-         [57344, 63743], [64046, 64047], [64110, 64111], [64218, 64255], [64263, 64274],
-         [64280, 64284], [64434, 64466], [64830, 64847], [64912, 64913], [64968, 65007],
-         [65020, 65135], [65277, 65295], [65306, 65312], [65339, 65344], [65371, 65381],
-         [65471, 65473], [65480, 65481], [65488, 65489], [65496, 65497]];
-    for (i = 0; i < ranges.length; i++) {
-        start = ranges[i][0];
-        end = ranges[i][1];
-        for (j = start; j <= end; j++) {
-            result[j] = true;
-        }
-    }
-    return result;
-})();
-
-function splitQuery(query) {
-    var result = [];
-    var start = -1;
-    for (var i = 0; i < query.length; i++) {
-        if (splitChars[query.charCodeAt(i)]) {
-            if (start !== -1) {
-                result.push(query.slice(start, i));
-                start = -1;
-            }
-        } else if (start === -1) {
-            start = i;
-        }
-    }
-    if (start !== -1) {
-        result.push(query.slice(start));
-    }
-    return result;
-}
-
-
diff --git a/_static/searchtools.js b/_static/searchtools.js
index 261ecaa92..97d56a74d 100644
--- a/_static/searchtools.js
+++ b/_static/searchtools.js
@@ -4,22 +4,24 @@
  *
  * Sphinx JavaScript utilities for the full-text search.
  *
- * :copyright: Copyright 2007-2020 by the Sphinx team, see AUTHORS.
+ * :copyright: Copyright 2007-2023 by the Sphinx team, see AUTHORS.
  * :license: BSD, see LICENSE for details.
  *
  */
+"use strict";
 
-if (!Scorer) {
-  /**
-   * Simple result scoring code.
-   */
+/**
+ * Simple result scoring code.
+ */
+if (typeof Scorer === "undefined") {
   var Scorer = {
     // Implement the following function to further tweak the score for each result
-    // The function takes a result array [filename, title, anchor, descr, score]
+    // The function takes a result array [docname, title, anchor, descr, score, filename]
     // and returns the new score.
     /*
-    score: function(result) {
-      return result[4];
+    score: result => {
+      const [docname, title, anchor, descr, score, filename] = result
+      return score
     },
     */
 
@@ -28,9 +30,11 @@ if (!Scorer) {
     // or matches in the last dotted part of the object name
     objPartialMatch: 6,
     // Additive scores depending on the priority of the object
-    objPrio: {0:  15,   // used to be importantResults
-              1:  5,   // used to be objectResults
-              2: -5},  // used to be unimportantResults
+    objPrio: {
+      0: 15, // used to be importantResults
+      1: 5, // used to be objectResults
+      2: -5, // used to be unimportantResults
+    },
     //  Used when the priority is not in the mapping.
     objPrioDefault: 0,
 
@@ -39,444 +43,495 @@ if (!Scorer) {
     partialTitle: 7,
     // query found in terms
     term: 5,
-    partialTerm: 2
+    partialTerm: 2,
   };
 }
 
-if (!splitQuery) {
-  function splitQuery(query) {
-    return query.split(/\s+/);
+const _removeChildren = (element) => {
+  while (element && element.lastChild) element.removeChild(element.lastChild);
+};
+
+/**
+ * See https://developer.mozilla.org/en-US/docs/Web/JavaScript/Guide/Regular_Expressions#escaping
+ */
+const _escapeRegExp = (string) =>
+  string.replace(/[.*+\-?^${}()|[\]\\]/g, "\\$&"); // $& means the whole matched string
+
+const _displayItem = (item, searchTerms) => {
+  const docBuilder = DOCUMENTATION_OPTIONS.BUILDER;
+  const docUrlRoot = DOCUMENTATION_OPTIONS.URL_ROOT;
+  const docFileSuffix = DOCUMENTATION_OPTIONS.FILE_SUFFIX;
+  const docLinkSuffix = DOCUMENTATION_OPTIONS.LINK_SUFFIX;
+  const showSearchSummary = DOCUMENTATION_OPTIONS.SHOW_SEARCH_SUMMARY;
+
+  const [docName, title, anchor, descr, score, _filename] = item;
+
+  let listItem = document.createElement("li");
+  let requestUrl;
+  let linkUrl;
+  if (docBuilder === "dirhtml") {
+    // dirhtml builder
+    let dirname = docName + "/";
+    if (dirname.match(/\/index\/$/))
+      dirname = dirname.substring(0, dirname.length - 6);
+    else if (dirname === "index/") dirname = "";
+    requestUrl = docUrlRoot + dirname;
+    linkUrl = requestUrl;
+  } else {
+    // normal html builders
+    requestUrl = docUrlRoot + docName + docFileSuffix;
+    linkUrl = docName + docLinkSuffix;
+  }
+  let linkEl = listItem.appendChild(document.createElement("a"));
+  linkEl.href = linkUrl + anchor;
+  linkEl.dataset.score = score;
+  linkEl.innerHTML = title;
+  if (descr)
+    listItem.appendChild(document.createElement("span")).innerHTML =
+      " (" + descr + ")";
+  else if (showSearchSummary)
+    fetch(requestUrl)
+      .then((responseData) => responseData.text())
+      .then((data) => {
+        if (data)
+          listItem.appendChild(
+            Search.makeSearchSummary(data, searchTerms)
+          );
+      });
+  Search.output.appendChild(listItem);
+};
+const _finishSearch = (resultCount) => {
+  Search.stopPulse();
+  Search.title.innerText = _("Search Results");
+  if (!resultCount)
+    Search.status.innerText = Documentation.gettext(
+      "Your search did not match any documents. Please make sure that all words are spelled correctly and that you've selected enough categories."
+    );
+  else
+    Search.status.innerText = _(
+      `Search finished, found ${resultCount} page(s) matching the search query.`
+    );
+};
+const _displayNextItem = (
+  results,
+  resultCount,
+  searchTerms
+) => {
+  // results left, load the summary and display it
+  // this is intended to be dynamic (don't sub resultsCount)
+  if (results.length) {
+    _displayItem(results.pop(), searchTerms);
+    setTimeout(
+      () => _displayNextItem(results, resultCount, searchTerms),
+      5
+    );
   }
+  // search finished, update title and status message
+  else _finishSearch(resultCount);
+};
+
+/**
+ * Default splitQuery function. Can be overridden in ``sphinx.search`` with a
+ * custom function per language.
+ *
+ * The regular expression works by splitting the string on consecutive characters
+ * that are not Unicode letters, numbers, underscores, or emoji characters.
+ * This is the same as ``\W+`` in Python, preserving the surrogate pair area.
+ */
+if (typeof splitQuery === "undefined") {
+  var splitQuery = (query) => query
+      .split(/[^\p{Letter}\p{Number}_\p{Emoji_Presentation}]+/gu)
+      .filter(term => term)  // remove remaining empty strings
 }
 
 /**
  * Search Module
  */
-var Search = {
-
-  _index : null,
-  _queued_query : null,
-  _pulse_status : -1,
-
-  htmlToText : function(htmlString) {
-      var virtualDocument = document.implementation.createHTMLDocument('virtual');
-      var htmlElement = $(htmlString, virtualDocument);
-      htmlElement.find('.headerlink').remove();
-      docContent = htmlElement.find('[role=main]')[0];
-      if(docContent === undefined) {
-          console.warn("Content block not found. Sphinx search tries to obtain it " +
-                       "via '[role=main]'. Could you check your theme or template.");
-          return "";
-      }
-      return docContent.textContent || docContent.innerText;
+const Search = {
+  _index: null,
+  _queued_query: null,
+  _pulse_status: -1,
+
+  htmlToText: (htmlString) => {
+    const htmlElement = new DOMParser().parseFromString(htmlString, 'text/html');
+    htmlElement.querySelectorAll(".headerlink").forEach((el) => { el.remove() });
+    const docContent = htmlElement.querySelector('[role="main"]');
+    if (docContent !== undefined) return docContent.textContent;
+    console.warn(
+      "Content block not found. Sphinx search tries to obtain it via '[role=main]'. Could you check your theme or template."
+    );
+    return "";
   },
 
-  init : function() {
-      var params = $.getQueryParameters();
-      if (params.q) {
-          var query = params.q[0];
-          $('input[name="q"]')[0].value = query;
-          this.performSearch(query);
-      }
+  init: () => {
+    const query = new URLSearchParams(window.location.search).get("q");
+    document
+      .querySelectorAll('input[name="q"]')
+      .forEach((el) => (el.value = query));
+    if (query) Search.performSearch(query);
   },
 
-  loadIndex : function(url) {
-    $.ajax({type: "GET", url: url, data: null,
-            dataType: "script", cache: true,
-            complete: function(jqxhr, textstatus) {
-              if (textstatus != "success") {
-                document.getElementById("searchindexloader").src = url;
-              }
-            }});
-  },
+  loadIndex: (url) =>
+    (document.body.appendChild(document.createElement("script")).src = url),
 
-  setIndex : function(index) {
-    var q;
-    this._index = index;
-    if ((q = this._queued_query) !== null) {
-      this._queued_query = null;
-      Search.query(q);
+  setIndex: (index) => {
+    Search._index = index;
+    if (Search._queued_query !== null) {
+      const query = Search._queued_query;
+      Search._queued_query = null;
+      Search.query(query);
     }
   },
 
-  hasIndex : function() {
-      return this._index !== null;
-  },
+  hasIndex: () => Search._index !== null,
 
-  deferQuery : function(query) {
-      this._queued_query = query;
-  },
+  deferQuery: (query) => (Search._queued_query = query),
 
-  stopPulse : function() {
-      this._pulse_status = 0;
-  },
+  stopPulse: () => (Search._pulse_status = -1),
 
-  startPulse : function() {
-    if (this._pulse_status >= 0)
-        return;
-    function pulse() {
-      var i;
+  startPulse: () => {
+    if (Search._pulse_status >= 0) return;
+
+    const pulse = () => {
       Search._pulse_status = (Search._pulse_status + 1) % 4;
-      var dotString = '';
-      for (i = 0; i < Search._pulse_status; i++)
-        dotString += '.';
-      Search.dots.text(dotString);
-      if (Search._pulse_status > -1)
-        window.setTimeout(pulse, 500);
-    }
+      Search.dots.innerText = ".".repeat(Search._pulse_status);
+      if (Search._pulse_status >= 0) window.setTimeout(pulse, 500);
+    };
     pulse();
   },
 
   /**
    * perform a search for something (or wait until index is loaded)
    */
-  performSearch : function(query) {
+  performSearch: (query) => {
     // create the required interface elements
-    this.out = $('#search-results');
-    this.title = $('<h2>' + _('Searching') + '</h2>').appendTo(this.out);
-    this.dots = $('<span></span>').appendTo(this.title);
-    this.status = $('<p class="search-summary">&nbsp;</p>').appendTo(this.out);
-    this.output = $('<ul class="search"/>').appendTo(this.out);
-
-    $('#search-progress').text(_('Preparing search...'));
-    this.startPulse();
+    const searchText = document.createElement("h2");
+    searchText.textContent = _("Searching");
+    const searchSummary = document.createElement("p");
+    searchSummary.classList.add("search-summary");
+    searchSummary.innerText = "";
+    const searchList = document.createElement("ul");
+    searchList.classList.add("search");
+
+    const out = document.getElementById("search-results");
+    Search.title = out.appendChild(searchText);
+    Search.dots = Search.title.appendChild(document.createElement("span"));
+    Search.status = out.appendChild(searchSummary);
+    Search.output = out.appendChild(searchList);
+
+    const searchProgress = document.getElementById("search-progress");
+    // Some themes don't use the search progress node
+    if (searchProgress) {
+      searchProgress.innerText = _("Preparing search...");
+    }
+    Search.startPulse();
 
     // index already loaded, the browser was quick!
-    if (this.hasIndex())
-      this.query(query);
-    else
-      this.deferQuery(query);
+    if (Search.hasIndex()) Search.query(query);
+    else Search.deferQuery(query);
   },
 
   /**
    * execute search (requires search index to be loaded)
    */
-  query : function(query) {
-    var i;
-
-    // stem the searchterms and add them to the correct list
-    var stemmer = new Stemmer();
-    var searchterms = [];
-    var excluded = [];
-    var hlterms = [];
-    var tmp = splitQuery(query);
-    var objectterms = [];
-    for (i = 0; i < tmp.length; i++) {
-      if (tmp[i] !== "") {
-          objectterms.push(tmp[i].toLowerCase());
-      }
+  query: (query) => {
+    const filenames = Search._index.filenames;
+    const docNames = Search._index.docnames;
+    const titles = Search._index.titles;
+    const allTitles = Search._index.alltitles;
+    const indexEntries = Search._index.indexentries;
+
+    // stem the search terms and add them to the correct list
+    const stemmer = new Stemmer();
+    const searchTerms = new Set();
+    const excludedTerms = new Set();
+    const highlightTerms = new Set();
+    const objectTerms = new Set(splitQuery(query.toLowerCase().trim()));
+    splitQuery(query.trim()).forEach((queryTerm) => {
+      const queryTermLower = queryTerm.toLowerCase();
+
+      // maybe skip this "word"
+      // stopwords array is from language_data.js
+      if (
+        stopwords.indexOf(queryTermLower) !== -1 ||
+        queryTerm.match(/^\d+$/)
+      )
+        return;
 
-      if ($u.indexOf(stopwords, tmp[i].toLowerCase()) != -1 || tmp[i] === "") {
-        // skip this "word"
-        continue;
-      }
       // stem the word
-      var word = stemmer.stemWord(tmp[i].toLowerCase());
-      // prevent stemmer from cutting word smaller than two chars
-      if(word.length < 3 && tmp[i].length >= 3) {
-        word = tmp[i];
-      }
-      var toAppend;
+      let word = stemmer.stemWord(queryTermLower);
       // select the correct list
-      if (word[0] == '-') {
-        toAppend = excluded;
-        word = word.substr(1);
-      }
+      if (word[0] === "-") excludedTerms.add(word.substr(1));
       else {
-        toAppend = searchterms;
-        hlterms.push(tmp[i].toLowerCase());
+        searchTerms.add(word);
+        highlightTerms.add(queryTermLower);
       }
-      // only add if not already in the list
-      if (!$u.contains(toAppend, word))
-        toAppend.push(word);
-    }
-    var highlightstring = '?highlight=' + $.urlencode(hlterms.join(" "));
+    });
 
-    // console.debug('SEARCH: searching for:');
-    // console.info('required: ', searchterms);
-    // console.info('excluded: ', excluded);
+    if (SPHINX_HIGHLIGHT_ENABLED) {  // set in sphinx_highlight.js
+      localStorage.setItem("sphinx_highlight_terms", [...highlightTerms].join(" "))
+    }
 
-    // prepare search
-    var terms = this._index.terms;
-    var titleterms = this._index.titleterms;
+    // console.debug("SEARCH: searching for:");
+    // console.info("required: ", [...searchTerms]);
+    // console.info("excluded: ", [...excludedTerms]);
+
+    // array of [docname, title, anchor, descr, score, filename]
+    let results = [];
+    _removeChildren(document.getElementById("search-progress"));
+
+    const queryLower = query.toLowerCase();
+    for (const [title, foundTitles] of Object.entries(allTitles)) {
+      if (title.toLowerCase().includes(queryLower) && (queryLower.length >= title.length/2)) {
+        for (const [file, id] of foundTitles) {
+          let score = Math.round(100 * queryLower.length / title.length)
+          results.push([
+            docNames[file],
+            titles[file] !== title ? `${titles[file]} > ${title}` : title,
+            id !== null ? "#" + id : "",
+            null,
+            score,
+            filenames[file],
+          ]);
+        }
+      }
+    }
 
-    // array of [filename, title, anchor, descr, score]
-    var results = [];
-    $('#search-progress').empty();
+    // search for explicit entries in index directives
+    for (const [entry, foundEntries] of Object.entries(indexEntries)) {
+      if (entry.includes(queryLower) && (queryLower.length >= entry.length/2)) {
+        for (const [file, id] of foundEntries) {
+          let score = Math.round(100 * queryLower.length / entry.length)
+          results.push([
+            docNames[file],
+            titles[file],
+            id ? "#" + id : "",
+            null,
+            score,
+            filenames[file],
+          ]);
+        }
+      }
+    }
 
     // lookup as object
-    for (i = 0; i < objectterms.length; i++) {
-      var others = [].concat(objectterms.slice(0, i),
-                             objectterms.slice(i+1, objectterms.length));
-      results = results.concat(this.performObjectSearch(objectterms[i], others));
-    }
+    objectTerms.forEach((term) =>
+      results.push(...Search.performObjectSearch(term, objectTerms))
+    );
 
     // lookup as search terms in fulltext
-    results = results.concat(this.performTermsSearch(searchterms, excluded, terms, titleterms));
+    results.push(...Search.performTermsSearch(searchTerms, excludedTerms));
 
     // let the scorer override scores with a custom scoring function
-    if (Scorer.score) {
-      for (i = 0; i < results.length; i++)
-        results[i][4] = Scorer.score(results[i]);
-    }
+    if (Scorer.score) results.forEach((item) => (item[4] = Scorer.score(item)));
 
     // now sort the results by score (in opposite order of appearance, since the
     // display function below uses pop() to retrieve items) and then
     // alphabetically
-    results.sort(function(a, b) {
-      var left = a[4];
-      var right = b[4];
-      if (left > right) {
-        return 1;
-      } else if (left < right) {
-        return -1;
-      } else {
+    results.sort((a, b) => {
+      const leftScore = a[4];
+      const rightScore = b[4];
+      if (leftScore === rightScore) {
         // same score: sort alphabetically
-        left = a[1].toLowerCase();
-        right = b[1].toLowerCase();
-        return (left > right) ? -1 : ((left < right) ? 1 : 0);
+        const leftTitle = a[1].toLowerCase();
+        const rightTitle = b[1].toLowerCase();
+        if (leftTitle === rightTitle) return 0;
+        return leftTitle > rightTitle ? -1 : 1; // inverted is intentional
       }
+      return leftScore > rightScore ? 1 : -1;
     });
 
+    // remove duplicate search results
+    // note the reversing of results, so that in the case of duplicates, the highest-scoring entry is kept
+    let seen = new Set();
+    results = results.reverse().reduce((acc, result) => {
+      let resultStr = result.slice(0, 4).concat([result[5]]).map(v => String(v)).join(',');
+      if (!seen.has(resultStr)) {
+        acc.push(result);
+        seen.add(resultStr);
+      }
+      return acc;
+    }, []);
+
+    results = results.reverse();
+
     // for debugging
     //Search.lastresults = results.slice();  // a copy
-    //console.info('search results:', Search.lastresults);
+    // console.info("search results:", Search.lastresults);
 
     // print the results
-    var resultCount = results.length;
-    function displayNextItem() {
-      // results left, load the summary and display it
-      if (results.length) {
-        var item = results.pop();
-        var listItem = $('<li style="display:none"></li>');
-        var requestUrl = "";
-        var linkUrl = "";
-        if (DOCUMENTATION_OPTIONS.BUILDER === 'dirhtml') {
-          // dirhtml builder
-          var dirname = item[0] + '/';
-          if (dirname.match(/\/index\/$/)) {
-            dirname = dirname.substring(0, dirname.length-6);
-          } else if (dirname == 'index/') {
-            dirname = '';
-          }
-          requestUrl = DOCUMENTATION_OPTIONS.URL_ROOT + dirname;
-          linkUrl = requestUrl;
-
-        } else {
-          // normal html builders
-          requestUrl = DOCUMENTATION_OPTIONS.URL_ROOT + item[0] + DOCUMENTATION_OPTIONS.FILE_SUFFIX;
-          linkUrl = item[0] + DOCUMENTATION_OPTIONS.LINK_SUFFIX;
-        }
-        listItem.append($('<a/>').attr('href',
-            linkUrl +
-            highlightstring + item[2]).html(item[1]));
-        if (item[3]) {
-          listItem.append($('<span> (' + item[3] + ')</span>'));
-          Search.output.append(listItem);
-          listItem.slideDown(5, function() {
-            displayNextItem();
-          });
-        } else if (DOCUMENTATION_OPTIONS.HAS_SOURCE) {
-          $.ajax({url: requestUrl,
-                  dataType: "text",
-                  complete: function(jqxhr, textstatus) {
-                    var data = jqxhr.responseText;
-                    if (data !== '' && data !== undefined) {
-                      listItem.append(Search.makeSearchSummary(data, searchterms, hlterms));
-                    }
-                    Search.output.append(listItem);
-                    listItem.slideDown(5, function() {
-                      displayNextItem();
-                    });
-                  }});
-        } else {
-          // no source available, just display title
-          Search.output.append(listItem);
-          listItem.slideDown(5, function() {
-            displayNextItem();
-          });
-        }
-      }
-      // search finished, update title and status message
-      else {
-        Search.stopPulse();
-        Search.title.text(_('Search Results'));
-        if (!resultCount)
-          Search.status.text(_('Your search did not match any documents. Please make sure that all words are spelled correctly and that you\'ve selected enough categories.'));
-        else
-            Search.status.text(_('Search finished, found %s page(s) matching the search query.').replace('%s', resultCount));
-        Search.status.fadeIn(500);
-      }
-    }
-    displayNextItem();
+    _displayNextItem(results, results.length, searchTerms);
   },
 
   /**
    * search for object names
    */
-  performObjectSearch : function(object, otherterms) {
-    var filenames = this._index.filenames;
-    var docnames = this._index.docnames;
-    var objects = this._index.objects;
-    var objnames = this._index.objnames;
-    var titles = this._index.titles;
-
-    var i;
-    var results = [];
-
-    for (var prefix in objects) {
-      for (var name in objects[prefix]) {
-        var fullname = (prefix ? prefix + '.' : '') + name;
-        var fullnameLower = fullname.toLowerCase()
-        if (fullnameLower.indexOf(object) > -1) {
-          var score = 0;
-          var parts = fullnameLower.split('.');
-          // check for different match types: exact matches of full name or
-          // "last name" (i.e. last dotted part)
-          if (fullnameLower == object || parts[parts.length - 1] == object) {
-            score += Scorer.objNameMatch;
-          // matches in last name
-          } else if (parts[parts.length - 1].indexOf(object) > -1) {
-            score += Scorer.objPartialMatch;
-          }
-          var match = objects[prefix][name];
-          var objname = objnames[match[1]][2];
-          var title = titles[match[0]];
-          // If more than one term searched for, we require other words to be
-          // found in the name/title/description
-          if (otherterms.length > 0) {
-            var haystack = (prefix + ' ' + name + ' ' +
-                            objname + ' ' + title).toLowerCase();
-            var allfound = true;
-            for (i = 0; i < otherterms.length; i++) {
-              if (haystack.indexOf(otherterms[i]) == -1) {
-                allfound = false;
-                break;
-              }
-            }
-            if (!allfound) {
-              continue;
-            }
-          }
-          var descr = objname + _(', in ') + title;
-
-          var anchor = match[3];
-          if (anchor === '')
-            anchor = fullname;
-          else if (anchor == '-')
-            anchor = objnames[match[1]][1] + '-' + fullname;
-          // add custom score for some objects according to scorer
-          if (Scorer.objPrio.hasOwnProperty(match[2])) {
-            score += Scorer.objPrio[match[2]];
-          } else {
-            score += Scorer.objPrioDefault;
-          }
-          results.push([docnames[match[0]], fullname, '#'+anchor, descr, score, filenames[match[0]]]);
-        }
+  performObjectSearch: (object, objectTerms) => {
+    const filenames = Search._index.filenames;
+    const docNames = Search._index.docnames;
+    const objects = Search._index.objects;
+    const objNames = Search._index.objnames;
+    const titles = Search._index.titles;
+
+    const results = [];
+
+    const objectSearchCallback = (prefix, match) => {
+      const name = match[4]
+      const fullname = (prefix ? prefix + "." : "") + name;
+      const fullnameLower = fullname.toLowerCase();
+      if (fullnameLower.indexOf(object) < 0) return;
+
+      let score = 0;
+      const parts = fullnameLower.split(".");
+
+      // check for different match types: exact matches of full name or
+      // "last name" (i.e. last dotted part)
+      if (fullnameLower === object || parts.slice(-1)[0] === object)
+        score += Scorer.objNameMatch;
+      else if (parts.slice(-1)[0].indexOf(object) > -1)
+        score += Scorer.objPartialMatch; // matches in last name
+
+      const objName = objNames[match[1]][2];
+      const title = titles[match[0]];
+
+      // If more than one term searched for, we require other words to be
+      // found in the name/title/description
+      const otherTerms = new Set(objectTerms);
+      otherTerms.delete(object);
+      if (otherTerms.size > 0) {
+        const haystack = `${prefix} ${name} ${objName} ${title}`.toLowerCase();
+        if (
+          [...otherTerms].some((otherTerm) => haystack.indexOf(otherTerm) < 0)
+        )
+          return;
       }
-    }
 
+      let anchor = match[3];
+      if (anchor === "") anchor = fullname;
+      else if (anchor === "-") anchor = objNames[match[1]][1] + "-" + fullname;
+
+      const descr = objName + _(", in ") + title;
+
+      // add custom score for some objects according to scorer
+      if (Scorer.objPrio.hasOwnProperty(match[2]))
+        score += Scorer.objPrio[match[2]];
+      else score += Scorer.objPrioDefault;
+
+      results.push([
+        docNames[match[0]],
+        fullname,
+        "#" + anchor,
+        descr,
+        score,
+        filenames[match[0]],
+      ]);
+    };
+    Object.keys(objects).forEach((prefix) =>
+      objects[prefix].forEach((array) =>
+        objectSearchCallback(prefix, array)
+      )
+    );
     return results;
   },
 
   /**
    * search for full-text terms in the index
    */
-  performTermsSearch : function(searchterms, excluded, terms, titleterms) {
-    var docnames = this._index.docnames;
-    var filenames = this._index.filenames;
-    var titles = this._index.titles;
+  performTermsSearch: (searchTerms, excludedTerms) => {
+    // prepare search
+    const terms = Search._index.terms;
+    const titleTerms = Search._index.titleterms;
+    const filenames = Search._index.filenames;
+    const docNames = Search._index.docnames;
+    const titles = Search._index.titles;
 
-    var i, j, file;
-    var fileMap = {};
-    var scoreMap = {};
-    var results = [];
+    const scoreMap = new Map();
+    const fileMap = new Map();
 
     // perform the search on the required terms
-    for (i = 0; i < searchterms.length; i++) {
-      var word = searchterms[i];
-      var files = [];
-      var _o = [
-        {files: terms[word], score: Scorer.term},
-        {files: titleterms[word], score: Scorer.title}
+    searchTerms.forEach((word) => {
+      const files = [];
+      const arr = [
+        { files: terms[word], score: Scorer.term },
+        { files: titleTerms[word], score: Scorer.title },
       ];
       // add support for partial matches
       if (word.length > 2) {
-        for (var w in terms) {
-          if (w.match(word) && !terms[word]) {
-            _o.push({files: terms[w], score: Scorer.partialTerm})
-          }
-        }
-        for (var w in titleterms) {
-          if (w.match(word) && !titleterms[word]) {
-              _o.push({files: titleterms[w], score: Scorer.partialTitle})
-          }
-        }
+        const escapedWord = _escapeRegExp(word);
+        Object.keys(terms).forEach((term) => {
+          if (term.match(escapedWord) && !terms[word])
+            arr.push({ files: terms[term], score: Scorer.partialTerm });
+        });
+        Object.keys(titleTerms).forEach((term) => {
+          if (term.match(escapedWord) && !titleTerms[word])
+            arr.push({ files: titleTerms[word], score: Scorer.partialTitle });
+        });
       }
 
       // no match but word was a required one
-      if ($u.every(_o, function(o){return o.files === undefined;})) {
-        break;
-      }
+      if (arr.every((record) => record.files === undefined)) return;
+
       // found search word in contents
-      $u.each(_o, function(o) {
-        var _files = o.files;
-        if (_files === undefined)
-          return
-
-        if (_files.length === undefined)
-          _files = [_files];
-        files = files.concat(_files);
-
-        // set score for the word in each file to Scorer.term
-        for (j = 0; j < _files.length; j++) {
-          file = _files[j];
-          if (!(file in scoreMap))
-            scoreMap[file] = {};
-          scoreMap[file][word] = o.score;
-        }
+      arr.forEach((record) => {
+        if (record.files === undefined) return;
+
+        let recordFiles = record.files;
+        if (recordFiles.length === undefined) recordFiles = [recordFiles];
+        files.push(...recordFiles);
+
+        // set score for the word in each file
+        recordFiles.forEach((file) => {
+          if (!scoreMap.has(file)) scoreMap.set(file, {});
+          scoreMap.get(file)[word] = record.score;
+        });
       });
 
       // create the mapping
-      for (j = 0; j < files.length; j++) {
-        file = files[j];
-        if (file in fileMap && fileMap[file].indexOf(word) === -1)
-          fileMap[file].push(word);
-        else
-          fileMap[file] = [word];
-      }
-    }
+      files.forEach((file) => {
+        if (fileMap.has(file) && fileMap.get(file).indexOf(word) === -1)
+          fileMap.get(file).push(word);
+        else fileMap.set(file, [word]);
+      });
+    });
 
     // now check if the files don't contain excluded terms
-    for (file in fileMap) {
-      var valid = true;
-
+    const results = [];
+    for (const [file, wordList] of fileMap) {
       // check if all requirements are matched
-      var filteredTermCount = // as search terms with length < 3 are discarded: ignore
-        searchterms.filter(function(term){return term.length > 2}).length
+
+      // as search terms with length < 3 are discarded
+      const filteredTermCount = [...searchTerms].filter(
+        (term) => term.length > 2
+      ).length;
       if (
-        fileMap[file].length != searchterms.length &&
-        fileMap[file].length != filteredTermCount
-      ) continue;
+        wordList.length !== searchTerms.size &&
+        wordList.length !== filteredTermCount
+      )
+        continue;
 
       // ensure that none of the excluded terms is in the search result
-      for (i = 0; i < excluded.length; i++) {
-        if (terms[excluded[i]] == file ||
-            titleterms[excluded[i]] == file ||
-            $u.contains(terms[excluded[i]] || [], file) ||
-            $u.contains(titleterms[excluded[i]] || [], file)) {
-          valid = false;
-          break;
-        }
-      }
+      if (
+        [...excludedTerms].some(
+          (term) =>
+            terms[term] === file ||
+            titleTerms[term] === file ||
+            (terms[term] || []).includes(file) ||
+            (titleTerms[term] || []).includes(file)
+        )
+      )
+        break;
 
-      // if we have still a valid result we can add it to the result list
-      if (valid) {
-        // select one (max) score for the file.
-        // for better ranking, we should calculate ranking by using words statistics like basic tf-idf...
-        var score = $u.max($u.map(fileMap[file], function(w){return scoreMap[file][w]}));
-        results.push([docnames[file], titles[file], '', null, score, filenames[file]]);
-      }
+      // select one (max) score for the file.
+      const score = Math.max(...wordList.map((w) => scoreMap.get(file)[w]));
+      // add result to the result list
+      results.push([
+        docNames[file],
+        titles[file],
+        "",
+        null,
+        score,
+        filenames[file],
+      ]);
     }
     return results;
   },
@@ -484,31 +539,28 @@ var Search = {
   /**
    * helper function to return a node containing the
    * search summary for a given text. keywords is a list
-   * of stemmed words, hlwords is the list of normal, unstemmed
-   * words. the first one is used to find the occurrence, the
-   * latter for highlighting it.
+   * of stemmed words.
    */
-  makeSearchSummary : function(htmlText, keywords, hlwords) {
-    var text = Search.htmlToText(htmlText);
-    var textLower = text.toLowerCase();
-    var start = 0;
-    $.each(keywords, function() {
-      var i = textLower.indexOf(this.toLowerCase());
-      if (i > -1)
-        start = i;
-    });
-    start = Math.max(start - 120, 0);
-    var excerpt = ((start > 0) ? '...' : '') +
-      $.trim(text.substr(start, 240)) +
-      ((start + 240 - text.length) ? '...' : '');
-    var rv = $('<div class="context"></div>').text(excerpt);
-    $.each(hlwords, function() {
-      rv = rv.highlightText(this, 'highlighted');
-    });
-    return rv;
-  }
+  makeSearchSummary: (htmlText, keywords) => {
+    const text = Search.htmlToText(htmlText);
+    if (text === "") return null;
+
+    const textLower = text.toLowerCase();
+    const actualStartPosition = [...keywords]
+      .map((k) => textLower.indexOf(k.toLowerCase()))
+      .filter((i) => i > -1)
+      .slice(-1)[0];
+    const startWithContext = Math.max(actualStartPosition - 120, 0);
+
+    const top = startWithContext === 0 ? "" : "...";
+    const tail = startWithContext + 240 < text.length ? "..." : "";
+
+    let summary = document.createElement("p");
+    summary.classList.add("context");
+    summary.textContent = top + text.substr(startWithContext, 240).trim() + tail;
+
+    return summary;
+  },
 };
 
-$(document).ready(function() {
-  Search.init();
-});
+_ready(Search.init);
diff --git a/_static/sphinx_highlight.js b/_static/sphinx_highlight.js
new file mode 100644
index 000000000..aae669d7e
--- /dev/null
+++ b/_static/sphinx_highlight.js
@@ -0,0 +1,144 @@
+/* Highlighting utilities for Sphinx HTML documentation. */
+"use strict";
+
+const SPHINX_HIGHLIGHT_ENABLED = true
+
+/**
+ * highlight a given string on a node by wrapping it in
+ * span elements with the given class name.
+ */
+const _highlight = (node, addItems, text, className) => {
+  if (node.nodeType === Node.TEXT_NODE) {
+    const val = node.nodeValue;
+    const parent = node.parentNode;
+    const pos = val.toLowerCase().indexOf(text);
+    if (
+      pos >= 0 &&
+      !parent.classList.contains(className) &&
+      !parent.classList.contains("nohighlight")
+    ) {
+      let span;
+
+      const closestNode = parent.closest("body, svg, foreignObject");
+      const isInSVG = closestNode && closestNode.matches("svg");
+      if (isInSVG) {
+        span = document.createElementNS("http://www.w3.org/2000/svg", "tspan");
+      } else {
+        span = document.createElement("span");
+        span.classList.add(className);
+      }
+
+      span.appendChild(document.createTextNode(val.substr(pos, text.length)));
+      parent.insertBefore(
+        span,
+        parent.insertBefore(
+          document.createTextNode(val.substr(pos + text.length)),
+          node.nextSibling
+        )
+      );
+      node.nodeValue = val.substr(0, pos);
+
+      if (isInSVG) {
+        const rect = document.createElementNS(
+          "http://www.w3.org/2000/svg",
+          "rect"
+        );
+        const bbox = parent.getBBox();
+        rect.x.baseVal.value = bbox.x;
+        rect.y.baseVal.value = bbox.y;
+        rect.width.baseVal.value = bbox.width;
+        rect.height.baseVal.value = bbox.height;
+        rect.setAttribute("class", className);
+        addItems.push({ parent: parent, target: rect });
+      }
+    }
+  } else if (node.matches && !node.matches("button, select, textarea")) {
+    node.childNodes.forEach((el) => _highlight(el, addItems, text, className));
+  }
+};
+const _highlightText = (thisNode, text, className) => {
+  let addItems = [];
+  _highlight(thisNode, addItems, text, className);
+  addItems.forEach((obj) =>
+    obj.parent.insertAdjacentElement("beforebegin", obj.target)
+  );
+};
+
+/**
+ * Small JavaScript module for the documentation.
+ */
+const SphinxHighlight = {
+
+  /**
+   * highlight the search words provided in localstorage in the text
+   */
+  highlightSearchWords: () => {
+    if (!SPHINX_HIGHLIGHT_ENABLED) return;  // bail if no highlight
+
+    // get and clear terms from localstorage
+    const url = new URL(window.location);
+    const highlight =
+        localStorage.getItem("sphinx_highlight_terms")
+        || url.searchParams.get("highlight")
+        || "";
+    localStorage.removeItem("sphinx_highlight_terms")
+    url.searchParams.delete("highlight");
+    window.history.replaceState({}, "", url);
+
+    // get individual terms from highlight string
+    const terms = highlight.toLowerCase().split(/\s+/).filter(x => x);
+    if (terms.length === 0) return; // nothing to do
+
+    // There should never be more than one element matching "div.body"
+    const divBody = document.querySelectorAll("div.body");
+    const body = divBody.length ? divBody[0] : document.querySelector("body");
+    window.setTimeout(() => {
+      terms.forEach((term) => _highlightText(body, term, "highlighted"));
+    }, 10);
+
+    const searchBox = document.getElementById("searchbox");
+    if (searchBox === null) return;
+    searchBox.appendChild(
+      document
+        .createRange()
+        .createContextualFragment(
+          '<p class="highlight-link">' +
+            '<a href="javascript:SphinxHighlight.hideSearchWords()">' +
+            _("Hide Search Matches") +
+            "</a></p>"
+        )
+    );
+  },
+
+  /**
+   * helper function to hide the search marks again
+   */
+  hideSearchWords: () => {
+    document
+      .querySelectorAll("#searchbox .highlight-link")
+      .forEach((el) => el.remove());
+    document
+      .querySelectorAll("span.highlighted")
+      .forEach((el) => el.classList.remove("highlighted"));
+    localStorage.removeItem("sphinx_highlight_terms")
+  },
+
+  initEscapeListener: () => {
+    // only install a listener if it is really needed
+    if (!DOCUMENTATION_OPTIONS.ENABLE_SEARCH_SHORTCUTS) return;
+
+    document.addEventListener("keydown", (event) => {
+      // bail for input elements
+      if (BLACKLISTED_KEY_CONTROL_ELEMENTS.has(document.activeElement.tagName)) return;
+      // bail with special keys
+      if (event.shiftKey || event.altKey || event.ctrlKey || event.metaKey) return;
+      if (DOCUMENTATION_OPTIONS.ENABLE_SEARCH_SHORTCUTS && (event.key === "Escape")) {
+        SphinxHighlight.hideSearchWords();
+        event.preventDefault();
+      }
+    });
+  },
+};
+
+_ready(SphinxHighlight.highlightSearchWords);
+_ready(SphinxHighlight.initEscapeListener);
diff --git a/_static/underscore-1.3.1.js b/_static/underscore-1.3.1.js
deleted file mode 100644
index 208d4cd89..000000000
--- a/_static/underscore-1.3.1.js
+++ /dev/null
@@ -1,999 +0,0 @@
-//     Underscore.js 1.3.1
-//     (c) 2009-2012 Jeremy Ashkenas, DocumentCloud Inc.
-//     Underscore is freely distributable under the MIT license.
-//     Portions of Underscore are inspired or borrowed from Prototype,
-//     Oliver Steele's Functional, and John Resig's Micro-Templating.
-//     For all details and documentation:
-//     http://documentcloud.github.com/underscore
-
-(function() {
-
-  // Baseline setup
-  // --------------
-
-  // Establish the root object, `window` in the browser, or `global` on the server.
-  var root = this;
-
-  // Save the previous value of the `_` variable.
-  var previousUnderscore = root._;
-
-  // Establish the object that gets returned to break out of a loop iteration.
-  var breaker = {};
-
-  // Save bytes in the minified (but not gzipped) version:
-  var ArrayProto = Array.prototype, ObjProto = Object.prototype, FuncProto = Function.prototype;
-
-  // Create quick reference variables for speed access to core prototypes.
-  var slice            = ArrayProto.slice,
-      unshift          = ArrayProto.unshift,
-      toString         = ObjProto.toString,
-      hasOwnProperty   = ObjProto.hasOwnProperty;
-
-  // All **ECMAScript 5** native function implementations that we hope to use
-  // are declared here.
-  var
-    nativeForEach      = ArrayProto.forEach,
-    nativeMap          = ArrayProto.map,
-    nativeReduce       = ArrayProto.reduce,
-    nativeReduceRight  = ArrayProto.reduceRight,
-    nativeFilter       = ArrayProto.filter,
-    nativeEvery        = ArrayProto.every,
-    nativeSome         = ArrayProto.some,
-    nativeIndexOf      = ArrayProto.indexOf,
-    nativeLastIndexOf  = ArrayProto.lastIndexOf,
-    nativeIsArray      = Array.isArray,
-    nativeKeys         = Object.keys,
-    nativeBind         = FuncProto.bind;
-
-  // Create a safe reference to the Underscore object for use below.
-  var _ = function(obj) { return new wrapper(obj); };
-
-  // Export the Underscore object for **Node.js**, with
-  // backwards-compatibility for the old `require()` API. If we're in
-  // the browser, add `_` as a global object via a string identifier,
-  // for Closure Compiler "advanced" mode.
-  if (typeof exports !== 'undefined') {
-    if (typeof module !== 'undefined' && module.exports) {
-      exports = module.exports = _;
-    }
-    exports._ = _;
-  } else {
-    root['_'] = _;
-  }
-
-  // Current version.
-  _.VERSION = '1.3.1';
-
-  // Collection Functions
-  // --------------------
-
-  // The cornerstone, an `each` implementation, aka `forEach`.
-  // Handles objects with the built-in `forEach`, arrays, and raw objects.
-  // Delegates to **ECMAScript 5**'s native `forEach` if available.
-  var each = _.each = _.forEach = function(obj, iterator, context) {
-    if (obj == null) return;
-    if (nativeForEach && obj.forEach === nativeForEach) {
-      obj.forEach(iterator, context);
-    } else if (obj.length === +obj.length) {
-      for (var i = 0, l = obj.length; i < l; i++) {
-        if (i in obj && iterator.call(context, obj[i], i, obj) === breaker) return;
-      }
-    } else {
-      for (var key in obj) {
-        if (_.has(obj, key)) {
-          if (iterator.call(context, obj[key], key, obj) === breaker) return;
-        }
-      }
-    }
-  };
-
-  // Return the results of applying the iterator to each element.
-  // Delegates to **ECMAScript 5**'s native `map` if available.
-  _.map = _.collect = function(obj, iterator, context) {
-    var results = [];
-    if (obj == null) return results;
-    if (nativeMap && obj.map === nativeMap) return obj.map(iterator, context);
-    each(obj, function(value, index, list) {
-      results[results.length] = iterator.call(context, value, index, list);
-    });
-    if (obj.length === +obj.length) results.length = obj.length;
-    return results;
-  };
-
-  // **Reduce** builds up a single result from a list of values, aka `inject`,
-  // or `foldl`. Delegates to **ECMAScript 5**'s native `reduce` if available.
-  _.reduce = _.foldl = _.inject = function(obj, iterator, memo, context) {
-    var initial = arguments.length > 2;
-    if (obj == null) obj = [];
-    if (nativeReduce && obj.reduce === nativeReduce) {
-      if (context) iterator = _.bind(iterator, context);
-      return initial ? obj.reduce(iterator, memo) : obj.reduce(iterator);
-    }
-    each(obj, function(value, index, list) {
-      if (!initial) {
-        memo = value;
-        initial = true;
-      } else {
-        memo = iterator.call(context, memo, value, index, list);
-      }
-    });
-    if (!initial) throw new TypeError('Reduce of empty array with no initial value');
-    return memo;
-  };
-
-  // The right-associative version of reduce, also known as `foldr`.
-  // Delegates to **ECMAScript 5**'s native `reduceRight` if available.
-  _.reduceRight = _.foldr = function(obj, iterator, memo, context) {
-    var initial = arguments.length > 2;
-    if (obj == null) obj = [];
-    if (nativeReduceRight && obj.reduceRight === nativeReduceRight) {
-      if (context) iterator = _.bind(iterator, context);
-      return initial ? obj.reduceRight(iterator, memo) : obj.reduceRight(iterator);
-    }
-    var reversed = _.toArray(obj).reverse();
-    if (context && !initial) iterator = _.bind(iterator, context);
-    return initial ? _.reduce(reversed, iterator, memo, context) : _.reduce(reversed, iterator);
-  };
-
-  // Return the first value which passes a truth test. Aliased as `detect`.
-  _.find = _.detect = function(obj, iterator, context) {
-    var result;
-    any(obj, function(value, index, list) {
-      if (iterator.call(context, value, index, list)) {
-        result = value;
-        return true;
-      }
-    });
-    return result;
-  };
-
-  // Return all the elements that pass a truth test.
-  // Delegates to **ECMAScript 5**'s native `filter` if available.
-  // Aliased as `select`.
-  _.filter = _.select = function(obj, iterator, context) {
-    var results = [];
-    if (obj == null) return results;
-    if (nativeFilter && obj.filter === nativeFilter) return obj.filter(iterator, context);
-    each(obj, function(value, index, list) {
-      if (iterator.call(context, value, index, list)) results[results.length] = value;
-    });
-    return results;
-  };
-
-  // Return all the elements for which a truth test fails.
-  _.reject = function(obj, iterator, context) {
-    var results = [];
-    if (obj == null) return results;
-    each(obj, function(value, index, list) {
-      if (!iterator.call(context, value, index, list)) results[results.length] = value;
-    });
-    return results;
-  };
-
-  // Determine whether all of the elements match a truth test.
-  // Delegates to **ECMAScript 5**'s native `every` if available.
-  // Aliased as `all`.
-  _.every = _.all = function(obj, iterator, context) {
-    var result = true;
-    if (obj == null) return result;
-    if (nativeEvery && obj.every === nativeEvery) return obj.every(iterator, context);
-    each(obj, function(value, index, list) {
-      if (!(result = result && iterator.call(context, value, index, list))) return breaker;
-    });
-    return result;
-  };
-
-  // Determine if at least one element in the object matches a truth test.
-  // Delegates to **ECMAScript 5**'s native `some` if available.
-  // Aliased as `any`.
-  var any = _.some = _.any = function(obj, iterator, context) {
-    iterator || (iterator = _.identity);
-    var result = false;
-    if (obj == null) return result;
-    if (nativeSome && obj.some === nativeSome) return obj.some(iterator, context);
-    each(obj, function(value, index, list) {
-      if (result || (result = iterator.call(context, value, index, list))) return breaker;
-    });
-    return !!result;
-  };
-
-  // Determine if a given value is included in the array or object using `===`.
-  // Aliased as `contains`.
-  _.include = _.contains = function(obj, target) {
-    var found = false;
-    if (obj == null) return found;
-    if (nativeIndexOf && obj.indexOf === nativeIndexOf) return obj.indexOf(target) != -1;
-    found = any(obj, function(value) {
-      return value === target;
-    });
-    return found;
-  };
-
-  // Invoke a method (with arguments) on every item in a collection.
-  _.invoke = function(obj, method) {
-    var args = slice.call(arguments, 2);
-    return _.map(obj, function(value) {
-      return (_.isFunction(method) ? method || value : value[method]).apply(value, args);
-    });
-  };
-
-  // Convenience version of a common use case of `map`: fetching a property.
-  _.pluck = function(obj, key) {
-    return _.map(obj, function(value){ return value[key]; });
-  };
-
-  // Return the maximum element or (element-based computation).
-  _.max = function(obj, iterator, context) {
-    if (!iterator && _.isArray(obj)) return Math.max.apply(Math, obj);
-    if (!iterator && _.isEmpty(obj)) return -Infinity;
-    var result = {computed : -Infinity};
-    each(obj, function(value, index, list) {
-      var computed = iterator ? iterator.call(context, value, index, list) : value;
-      computed >= result.computed && (result = {value : value, computed : computed});
-    });
-    return result.value;
-  };
-
-  // Return the minimum element (or element-based computation).
-  _.min = function(obj, iterator, context) {
-    if (!iterator && _.isArray(obj)) return Math.min.apply(Math, obj);
-    if (!iterator && _.isEmpty(obj)) return Infinity;
-    var result = {computed : Infinity};
-    each(obj, function(value, index, list) {
-      var computed = iterator ? iterator.call(context, value, index, list) : value;
-      computed < result.computed && (result = {value : value, computed : computed});
-    });
-    return result.value;
-  };
-
-  // Shuffle an array.
-  _.shuffle = function(obj) {
-    var shuffled = [], rand;
-    each(obj, function(value, index, list) {
-      if (index == 0) {
-        shuffled[0] = value;
-      } else {
-        rand = Math.floor(Math.random() * (index + 1));
-        shuffled[index] = shuffled[rand];
-        shuffled[rand] = value;
-      }
-    });
-    return shuffled;
-  };
-
-  // Sort the object's values by a criterion produced by an iterator.
-  _.sortBy = function(obj, iterator, context) {
-    return _.pluck(_.map(obj, function(value, index, list) {
-      return {
-        value : value,
-        criteria : iterator.call(context, value, index, list)
-      };
-    }).sort(function(left, right) {
-      var a = left.criteria, b = right.criteria;
-      return a < b ? -1 : a > b ? 1 : 0;
-    }), 'value');
-  };
-
-  // Groups the object's values by a criterion. Pass either a string attribute
-  // to group by, or a function that returns the criterion.
-  _.groupBy = function(obj, val) {
-    var result = {};
-    var iterator = _.isFunction(val) ? val : function(obj) { return obj[val]; };
-    each(obj, function(value, index) {
-      var key = iterator(value, index);
-      (result[key] || (result[key] = [])).push(value);
-    });
-    return result;
-  };
-
-  // Use a comparator function to figure out at what index an object should
-  // be inserted so as to maintain order. Uses binary search.
-  _.sortedIndex = function(array, obj, iterator) {
-    iterator || (iterator = _.identity);
-    var low = 0, high = array.length;
-    while (low < high) {
-      var mid = (low + high) >> 1;
-      iterator(array[mid]) < iterator(obj) ? low = mid + 1 : high = mid;
-    }
-    return low;
-  };
-
-  // Safely convert anything iterable into a real, live array.
-  _.toArray = function(iterable) {
-    if (!iterable)                return [];
-    if (iterable.toArray)         return iterable.toArray();
-    if (_.isArray(iterable))      return slice.call(iterable);
-    if (_.isArguments(iterable))  return slice.call(iterable);
-    return _.values(iterable);
-  };
-
-  // Return the number of elements in an object.
-  _.size = function(obj) {
-    return _.toArray(obj).length;
-  };
-
-  // Array Functions
-  // ---------------
-
-  // Get the first element of an array. Passing **n** will return the first N
-  // values in the array. Aliased as `head`. The **guard** check allows it to work
-  // with `_.map`.
-  _.first = _.head = function(array, n, guard) {
-    return (n != null) && !guard ? slice.call(array, 0, n) : array[0];
-  };
-
-  // Returns everything but the last entry of the array. Especcialy useful on
-  // the arguments object. Passing **n** will return all the values in
-  // the array, excluding the last N. The **guard** check allows it to work with
-  // `_.map`.
-  _.initial = function(array, n, guard) {
-    return slice.call(array, 0, array.length - ((n == null) || guard ? 1 : n));
-  };
-
-  // Get the last element of an array. Passing **n** will return the last N
-  // values in the array. The **guard** check allows it to work with `_.map`.
-  _.last = function(array, n, guard) {
-    if ((n != null) && !guard) {
-      return slice.call(array, Math.max(array.length - n, 0));
-    } else {
-      return array[array.length - 1];
-    }
-  };
-
-  // Returns everything but the first entry of the array. Aliased as `tail`.
-  // Especially useful on the arguments object. Passing an **index** will return
-  // the rest of the values in the array from that index onward. The **guard**
-  // check allows it to work with `_.map`.
-  _.rest = _.tail = function(array, index, guard) {
-    return slice.call(array, (index == null) || guard ? 1 : index);
-  };
-
-  // Trim out all falsy values from an array.
-  _.compact = function(array) {
-    return _.filter(array, function(value){ return !!value; });
-  };
-
-  // Return a completely flattened version of an array.
-  _.flatten = function(array, shallow) {
-    return _.reduce(array, function(memo, value) {
-      if (_.isArray(value)) return memo.concat(shallow ? value : _.flatten(value));
-      memo[memo.length] = value;
-      return memo;
-    }, []);
-  };
-
-  // Return a version of the array that does not contain the specified value(s).
-  _.without = function(array) {
-    return _.difference(array, slice.call(arguments, 1));
-  };
-
-  // Produce a duplicate-free version of the array. If the array has already
-  // been sorted, you have the option of using a faster algorithm.
-  // Aliased as `unique`.
-  _.uniq = _.unique = function(array, isSorted, iterator) {
-    var initial = iterator ? _.map(array, iterator) : array;
-    var result = [];
-    _.reduce(initial, function(memo, el, i) {
-      if (0 == i || (isSorted === true ? _.last(memo) != el : !_.include(memo, el))) {
-        memo[memo.length] = el;
-        result[result.length] = array[i];
-      }
-      return memo;
-    }, []);
-    return result;
-  };
-
-  // Produce an array that contains the union: each distinct element from all of
-  // the passed-in arrays.
-  _.union = function() {
-    return _.uniq(_.flatten(arguments, true));
-  };
-
-  // Produce an array that contains every item shared between all the
-  // passed-in arrays. (Aliased as "intersect" for back-compat.)
-  _.intersection = _.intersect = function(array) {
-    var rest = slice.call(arguments, 1);
-    return _.filter(_.uniq(array), function(item) {
-      return _.every(rest, function(other) {
-        return _.indexOf(other, item) >= 0;
-      });
-    });
-  };
-
-  // Take the difference between one array and a number of other arrays.
-  // Only the elements present in just the first array will remain.
-  _.difference = function(array) {
-    var rest = _.flatten(slice.call(arguments, 1));
-    return _.filter(array, function(value){ return !_.include(rest, value); });
-  };
-
-  // Zip together multiple lists into a single array -- elements that share
-  // an index go together.
-  _.zip = function() {
-    var args = slice.call(arguments);
-    var length = _.max(_.pluck(args, 'length'));
-    var results = new Array(length);
-    for (var i = 0; i < length; i++) results[i] = _.pluck(args, "" + i);
-    return results;
-  };
-
-  // If the browser doesn't supply us with indexOf (I'm looking at you, **MSIE**),
-  // we need this function. Return the position of the first occurrence of an
-  // item in an array, or -1 if the item is not included in the array.
-  // Delegates to **ECMAScript 5**'s native `indexOf` if available.
-  // If the array is large and already in sort order, pass `true`
-  // for **isSorted** to use binary search.
-  _.indexOf = function(array, item, isSorted) {
-    if (array == null) return -1;
-    var i, l;
-    if (isSorted) {
-      i = _.sortedIndex(array, item);
-      return array[i] === item ? i : -1;
-    }
-    if (nativeIndexOf && array.indexOf === nativeIndexOf) return array.indexOf(item);
-    for (i = 0, l = array.length; i < l; i++) if (i in array && array[i] === item) return i;
-    return -1;
-  };
-
-  // Delegates to **ECMAScript 5**'s native `lastIndexOf` if available.
-  _.lastIndexOf = function(array, item) {
-    if (array == null) return -1;
-    if (nativeLastIndexOf && array.lastIndexOf === nativeLastIndexOf) return array.lastIndexOf(item);
-    var i = array.length;
-    while (i--) if (i in array && array[i] === item) return i;
-    return -1;
-  };
-
-  // Generate an integer Array containing an arithmetic progression. A port of
-  // the native Python `range()` function. See
-  // [the Python documentation](http://docs.python.org/library/functions.html#range).
-  _.range = function(start, stop, step) {
-    if (arguments.length <= 1) {
-      stop = start || 0;
-      start = 0;
-    }
-    step = arguments[2] || 1;
-
-    var len = Math.max(Math.ceil((stop - start) / step), 0);
-    var idx = 0;
-    var range = new Array(len);
-
-    while(idx < len) {
-      range[idx++] = start;
-      start += step;
-    }
-
-    return range;
-  };
-
-  // Function (ahem) Functions
-  // ------------------
-
-  // Reusable constructor function for prototype setting.
-  var ctor = function(){};
-
-  // Create a function bound to a given object (assigning `this`, and arguments,
-  // optionally). Binding with arguments is also known as `curry`.
-  // Delegates to **ECMAScript 5**'s native `Function.bind` if available.
-  // We check for `func.bind` first, to fail fast when `func` is undefined.
-  _.bind = function bind(func, context) {
-    var bound, args;
-    if (func.bind === nativeBind && nativeBind) return nativeBind.apply(func, slice.call(arguments, 1));
-    if (!_.isFunction(func)) throw new TypeError;
-    args = slice.call(arguments, 2);
-    return bound = function() {
-      if (!(this instanceof bound)) return func.apply(context, args.concat(slice.call(arguments)));
-      ctor.prototype = func.prototype;
-      var self = new ctor;
-      var result = func.apply(self, args.concat(slice.call(arguments)));
-      if (Object(result) === result) return result;
-      return self;
-    };
-  };
-
-  // Bind all of an object's methods to that object. Useful for ensuring that
-  // all callbacks defined on an object belong to it.
-  _.bindAll = function(obj) {
-    var funcs = slice.call(arguments, 1);
-    if (funcs.length == 0) funcs = _.functions(obj);
-    each(funcs, function(f) { obj[f] = _.bind(obj[f], obj); });
-    return obj;
-  };
-
-  // Memoize an expensive function by storing its results.
-  _.memoize = function(func, hasher) {
-    var memo = {};
-    hasher || (hasher = _.identity);
-    return function() {
-      var key = hasher.apply(this, arguments);
-      return _.has(memo, key) ? memo[key] : (memo[key] = func.apply(this, arguments));
-    };
-  };
-
-  // Delays a function for the given number of milliseconds, and then calls
-  // it with the arguments supplied.
-  _.delay = function(func, wait) {
-    var args = slice.call(arguments, 2);
-    return setTimeout(function(){ return func.apply(func, args); }, wait);
-  };
-
-  // Defers a function, scheduling it to run after the current call stack has
-  // cleared.
-  _.defer = function(func) {
-    return _.delay.apply(_, [func, 1].concat(slice.call(arguments, 1)));
-  };
-
-  // Returns a function, that, when invoked, will only be triggered at most once
-  // during a given window of time.
-  _.throttle = function(func, wait) {
-    var context, args, timeout, throttling, more;
-    var whenDone = _.debounce(function(){ more = throttling = false; }, wait);
-    return function() {
-      context = this; args = arguments;
-      var later = function() {
-        timeout = null;
-        if (more) func.apply(context, args);
-        whenDone();
-      };
-      if (!timeout) timeout = setTimeout(later, wait);
-      if (throttling) {
-        more = true;
-      } else {
-        func.apply(context, args);
-      }
-      whenDone();
-      throttling = true;
-    };
-  };
-
-  // Returns a function, that, as long as it continues to be invoked, will not
-  // be triggered. The function will be called after it stops being called for
-  // N milliseconds.
-  _.debounce = function(func, wait) {
-    var timeout;
-    return function() {
-      var context = this, args = arguments;
-      var later = function() {
-        timeout = null;
-        func.apply(context, args);
-      };
-      clearTimeout(timeout);
-      timeout = setTimeout(later, wait);
-    };
-  };
-
-  // Returns a function that will be executed at most one time, no matter how
-  // often you call it. Useful for lazy initialization.
-  _.once = function(func) {
-    var ran = false, memo;
-    return function() {
-      if (ran) return memo;
-      ran = true;
-      return memo = func.apply(this, arguments);
-    };
-  };
-
-  // Returns the first function passed as an argument to the second,
-  // allowing you to adjust arguments, run code before and after, and
-  // conditionally execute the original function.
-  _.wrap = function(func, wrapper) {
-    return function() {
-      var args = [func].concat(slice.call(arguments, 0));
-      return wrapper.apply(this, args);
-    };
-  };
-
-  // Returns a function that is the composition of a list of functions, each
-  // consuming the return value of the function that follows.
-  _.compose = function() {
-    var funcs = arguments;
-    return function() {
-      var args = arguments;
-      for (var i = funcs.length - 1; i >= 0; i--) {
-        args = [funcs[i].apply(this, args)];
-      }
-      return args[0];
-    };
-  };
-
-  // Returns a function that will only be executed after being called N times.
-  _.after = function(times, func) {
-    if (times <= 0) return func();
-    return function() {
-      if (--times < 1) { return func.apply(this, arguments); }
-    };
-  };
-
-  // Object Functions
-  // ----------------
-
-  // Retrieve the names of an object's properties.
-  // Delegates to **ECMAScript 5**'s native `Object.keys`
-  _.keys = nativeKeys || function(obj) {
-    if (obj !== Object(obj)) throw new TypeError('Invalid object');
-    var keys = [];
-    for (var key in obj) if (_.has(obj, key)) keys[keys.length] = key;
-    return keys;
-  };
-
-  // Retrieve the values of an object's properties.
-  _.values = function(obj) {
-    return _.map(obj, _.identity);
-  };
-
-  // Return a sorted list of the function names available on the object.
-  // Aliased as `methods`
-  _.functions = _.methods = function(obj) {
-    var names = [];
-    for (var key in obj) {
-      if (_.isFunction(obj[key])) names.push(key);
-    }
-    return names.sort();
-  };
-
-  // Extend a given object with all the properties in passed-in object(s).
-  _.extend = function(obj) {
-    each(slice.call(arguments, 1), function(source) {
-      for (var prop in source) {
-        obj[prop] = source[prop];
-      }
-    });
-    return obj;
-  };
-
-  // Fill in a given object with default properties.
-  _.defaults = function(obj) {
-    each(slice.call(arguments, 1), function(source) {
-      for (var prop in source) {
-        if (obj[prop] == null) obj[prop] = source[prop];
-      }
-    });
-    return obj;
-  };
-
-  // Create a (shallow-cloned) duplicate of an object.
-  _.clone = function(obj) {
-    if (!_.isObject(obj)) return obj;
-    return _.isArray(obj) ? obj.slice() : _.extend({}, obj);
-  };
-
-  // Invokes interceptor with the obj, and then returns obj.
-  // The primary purpose of this method is to "tap into" a method chain, in
-  // order to perform operations on intermediate results within the chain.
-  _.tap = function(obj, interceptor) {
-    interceptor(obj);
-    return obj;
-  };
-
-  // Internal recursive comparison function.
-  function eq(a, b, stack) {
-    // Identical objects are equal. `0 === -0`, but they aren't identical.
-    // See the Harmony `egal` proposal: http://wiki.ecmascript.org/doku.php?id=harmony:egal.
-    if (a === b) return a !== 0 || 1 / a == 1 / b;
-    // A strict comparison is necessary because `null == undefined`.
-    if (a == null || b == null) return a === b;
-    // Unwrap any wrapped objects.
-    if (a._chain) a = a._wrapped;
-    if (b._chain) b = b._wrapped;
-    // Invoke a custom `isEqual` method if one is provided.
-    if (a.isEqual && _.isFunction(a.isEqual)) return a.isEqual(b);
-    if (b.isEqual && _.isFunction(b.isEqual)) return b.isEqual(a);
-    // Compare `[[Class]]` names.
-    var className = toString.call(a);
-    if (className != toString.call(b)) return false;
-    switch (className) {
-      // Strings, numbers, dates, and booleans are compared by value.
-      case '[object String]':
-        // Primitives and their corresponding object wrappers are equivalent; thus, `"5"` is
-        // equivalent to `new String("5")`.
-        return a == String(b);
-      case '[object Number]':
-        // `NaN`s are equivalent, but non-reflexive. An `egal` comparison is performed for
-        // other numeric values.
-        return a != +a ? b != +b : (a == 0 ? 1 / a == 1 / b : a == +b);
-      case '[object Date]':
-      case '[object Boolean]':
-        // Coerce dates and booleans to numeric primitive values. Dates are compared by their
-        // millisecond representations. Note that invalid dates with millisecond representations
-        // of `NaN` are not equivalent.
-        return +a == +b;
-      // RegExps are compared by their source patterns and flags.
-      case '[object RegExp]':
-        return a.source == b.source &&
-               a.global == b.global &&
-               a.multiline == b.multiline &&
-               a.ignoreCase == b.ignoreCase;
-    }
-    if (typeof a != 'object' || typeof b != 'object') return false;
-    // Assume equality for cyclic structures. The algorithm for detecting cyclic
-    // structures is adapted from ES 5.1 section 15.12.3, abstract operation `JO`.
-    var length = stack.length;
-    while (length--) {
-      // Linear search. Performance is inversely proportional to the number of
-      // unique nested structures.
-      if (stack[length] == a) return true;
-    }
-    // Add the first object to the stack of traversed objects.
-    stack.push(a);
-    var size = 0, result = true;
-    // Recursively compare objects and arrays.
-    if (className == '[object Array]') {
-      // Compare array lengths to determine if a deep comparison is necessary.
-      size = a.length;
-      result = size == b.length;
-      if (result) {
-        // Deep compare the contents, ignoring non-numeric properties.
-        while (size--) {
-          // Ensure commutative equality for sparse arrays.
-          if (!(result = size in a == size in b && eq(a[size], b[size], stack))) break;
-        }
-      }
-    } else {
-      // Objects with different constructors are not equivalent.
-      if ('constructor' in a != 'constructor' in b || a.constructor != b.constructor) return false;
-      // Deep compare objects.
-      for (var key in a) {
-        if (_.has(a, key)) {
-          // Count the expected number of properties.
-          size++;
-          // Deep compare each member.
-          if (!(result = _.has(b, key) && eq(a[key], b[key], stack))) break;
-        }
-      }
-      // Ensure that both objects contain the same number of properties.
-      if (result) {
-        for (key in b) {
-          if (_.has(b, key) && !(size--)) break;
-        }
-        result = !size;
-      }
-    }
-    // Remove the first object from the stack of traversed objects.
-    stack.pop();
-    return result;
-  }
-
-  // Perform a deep comparison to check if two objects are equal.
-  _.isEqual = function(a, b) {
-    return eq(a, b, []);
-  };
-
-  // Is a given array, string, or object empty?
-  // An "empty" object has no enumerable own-properties.
-  _.isEmpty = function(obj) {
-    if (_.isArray(obj) || _.isString(obj)) return obj.length === 0;
-    for (var key in obj) if (_.has(obj, key)) return false;
-    return true;
-  };
-
-  // Is a given value a DOM element?
-  _.isElement = function(obj) {
-    return !!(obj && obj.nodeType == 1);
-  };
-
-  // Is a given value an array?
-  // Delegates to ECMA5's native Array.isArray
-  _.isArray = nativeIsArray || function(obj) {
-    return toString.call(obj) == '[object Array]';
-  };
-
-  // Is a given variable an object?
-  _.isObject = function(obj) {
-    return obj === Object(obj);
-  };
-
-  // Is a given variable an arguments object?
-  _.isArguments = function(obj) {
-    return toString.call(obj) == '[object Arguments]';
-  };
-  if (!_.isArguments(arguments)) {
-    _.isArguments = function(obj) {
-      return !!(obj && _.has(obj, 'callee'));
-    };
-  }
-
-  // Is a given value a function?
-  _.isFunction = function(obj) {
-    return toString.call(obj) == '[object Function]';
-  };
-
-  // Is a given value a string?
-  _.isString = function(obj) {
-    return toString.call(obj) == '[object String]';
-  };
-
-  // Is a given value a number?
-  _.isNumber = function(obj) {
-    return toString.call(obj) == '[object Number]';
-  };
-
-  // Is the given value `NaN`?
-  _.isNaN = function(obj) {
-    // `NaN` is the only value for which `===` is not reflexive.
-    return obj !== obj;
-  };
-
-  // Is a given value a boolean?
-  _.isBoolean = function(obj) {
-    return obj === true || obj === false || toString.call(obj) == '[object Boolean]';
-  };
-
-  // Is a given value a date?
-  _.isDate = function(obj) {
-    return toString.call(obj) == '[object Date]';
-  };
-
-  // Is the given value a regular expression?
-  _.isRegExp = function(obj) {
-    return toString.call(obj) == '[object RegExp]';
-  };
-
-  // Is a given value equal to null?
-  _.isNull = function(obj) {
-    return obj === null;
-  };
-
-  // Is a given variable undefined?
-  _.isUndefined = function(obj) {
-    return obj === void 0;
-  };
-
-  // Has own property?
-  _.has = function(obj, key) {
-    return hasOwnProperty.call(obj, key);
-  };
-
-  // Utility Functions
-  // -----------------
-
-  // Run Underscore.js in *noConflict* mode, returning the `_` variable to its
-  // previous owner. Returns a reference to the Underscore object.
-  _.noConflict = function() {
-    root._ = previousUnderscore;
-    return this;
-  };
-
-  // Keep the identity function around for default iterators.
-  _.identity = function(value) {
-    return value;
-  };
-
-  // Run a function **n** times.
-  _.times = function (n, iterator, context) {
-    for (var i = 0; i < n; i++) iterator.call(context, i);
-  };
-
-  // Escape a string for HTML interpolation.
-  _.escape = function(string) {
-    return (''+string).replace(/&/g, '&amp;').replace(/</g, '&lt;').replace(/>/g, '&gt;').replace(/"/g, '&quot;').replace(/'/g, '&#x27;').replace(/\//g,'&#x2F;');
-  };
-
-  // Add your own custom functions to the Underscore object, ensuring that
-  // they're correctly added to the OOP wrapper as well.
-  _.mixin = function(obj) {
-    each(_.functions(obj), function(name){
-      addToWrapper(name, _[name] = obj[name]);
-    });
-  };
-
-  // Generate a unique integer id (unique within the entire client session).
-  // Useful for temporary DOM ids.
-  var idCounter = 0;
-  _.uniqueId = function(prefix) {
-    var id = idCounter++;
-    return prefix ? prefix + id : id;
-  };
-
-  // By default, Underscore uses ERB-style template delimiters, change the
-  // following template settings to use alternative delimiters.
-  _.templateSettings = {
-    evaluate    : /<%([\s\S]+?)%>/g,
-    interpolate : /<%=([\s\S]+?)%>/g,
-    escape      : /<%-([\s\S]+?)%>/g
-  };
-
-  // When customizing `templateSettings`, if you don't want to define an
-  // interpolation, evaluation or escaping regex, we need one that is
-  // guaranteed not to match.
-  var noMatch = /.^/;
-
-  // Within an interpolation, evaluation, or escaping, remove HTML escaping
-  // that had been previously added.
-  var unescape = function(code) {
-    return code.replace(/\\\\/g, '\\').replace(/\\'/g, "'");
-  };
-
-  // JavaScript micro-templating, similar to John Resig's implementation.
-  // Underscore templating handles arbitrary delimiters, preserves whitespace,
-  // and correctly escapes quotes within interpolated code.
-  _.template = function(str, data) {
-    var c  = _.templateSettings;
-    var tmpl = 'var __p=[],print=function(){__p.push.apply(__p,arguments);};' +
-      'with(obj||{}){__p.push(\'' +
-      str.replace(/\\/g, '\\\\')
-         .replace(/'/g, "\\'")
-         .replace(c.escape || noMatch, function(match, code) {
-           return "',_.escape(" + unescape(code) + "),'";
-         })
-         .replace(c.interpolate || noMatch, function(match, code) {
-           return "'," + unescape(code) + ",'";
-         })
-         .replace(c.evaluate || noMatch, function(match, code) {
-           return "');" + unescape(code).replace(/[\r\n\t]/g, ' ') + ";__p.push('";
-         })
-         .replace(/\r/g, '\\r')
-         .replace(/\n/g, '\\n')
-         .replace(/\t/g, '\\t')
-         + "');}return __p.join('');";
-    var func = new Function('obj', '_', tmpl);
-    if (data) return func(data, _);
-    return function(data) {
-      return func.call(this, data, _);
-    };
-  };
-
-  // Add a "chain" function, which will delegate to the wrapper.
-  _.chain = function(obj) {
-    return _(obj).chain();
-  };
-
-  // The OOP Wrapper
-  // ---------------
-
-  // If Underscore is called as a function, it returns a wrapped object that
-  // can be used OO-style. This wrapper holds altered versions of all the
-  // underscore functions. Wrapped objects may be chained.
-  var wrapper = function(obj) { this._wrapped = obj; };
-
-  // Expose `wrapper.prototype` as `_.prototype`
-  _.prototype = wrapper.prototype;
-
-  // Helper function to continue chaining intermediate results.
-  var result = function(obj, chain) {
-    return chain ? _(obj).chain() : obj;
-  };
-
-  // A method to easily add functions to the OOP wrapper.
-  var addToWrapper = function(name, func) {
-    wrapper.prototype[name] = function() {
-      var args = slice.call(arguments);
-      unshift.call(args, this._wrapped);
-      return result(func.apply(_, args), this._chain);
-    };
-  };
-
-  // Add all of the Underscore functions to the wrapper object.
-  _.mixin(_);
-
-  // Add all mutator Array functions to the wrapper.
-  each(['pop', 'push', 'reverse', 'shift', 'sort', 'splice', 'unshift'], function(name) {
-    var method = ArrayProto[name];
-    wrapper.prototype[name] = function() {
-      var wrapped = this._wrapped;
-      method.apply(wrapped, arguments);
-      var length = wrapped.length;
-      if ((name == 'shift' || name == 'splice') && length === 0) delete wrapped[0];
-      return result(wrapped, this._chain);
-    };
-  });
-
-  // Add all accessor Array functions to the wrapper.
-  each(['concat', 'join', 'slice'], function(name) {
-    var method = ArrayProto[name];
-    wrapper.prototype[name] = function() {
-      return result(method.apply(this._wrapped, arguments), this._chain);
-    };
-  });
-
-  // Start chaining a wrapped Underscore object.
-  wrapper.prototype.chain = function() {
-    this._chain = true;
-    return this;
-  };
-
-  // Extracts the result from a wrapped and chained object.
-  wrapper.prototype.value = function() {
-    return this._wrapped;
-  };
-
-}).call(this);
diff --git a/_static/underscore.js b/_static/underscore.js
deleted file mode 100644
index 5b55f32be..000000000
--- a/_static/underscore.js
+++ /dev/null
@@ -1,31 +0,0 @@
-// Underscore.js 1.3.1
-// (c) 2009-2012 Jeremy Ashkenas, DocumentCloud Inc.
-// Underscore is freely distributable under the MIT license.
-// Portions of Underscore are inspired or borrowed from Prototype,
-// Oliver Steele's Functional, and John Resig's Micro-Templating.
-// For all details and documentation:
-// http://documentcloud.github.com/underscore
-(function(){function q(a,c,d){if(a===c)return a!==0||1/a==1/c;if(a==null||c==null)return a===c;if(a._chain)a=a._wrapped;if(c._chain)c=c._wrapped;if(a.isEqual&&b.isFunction(a.isEqual))return a.isEqual(c);if(c.isEqual&&b.isFunction(c.isEqual))return c.isEqual(a);var e=l.call(a);if(e!=l.call(c))return false;switch(e){case "[object String]":return a==String(c);case "[object Number]":return a!=+a?c!=+c:a==0?1/a==1/c:a==+c;case "[object Date]":case "[object Boolean]":return+a==+c;case "[object RegExp]":return a.source==
-c.source&&a.global==c.global&&a.multiline==c.multiline&&a.ignoreCase==c.ignoreCase}if(typeof a!="object"||typeof c!="object")return false;for(var f=d.length;f--;)if(d[f]==a)return true;d.push(a);var f=0,g=true;if(e=="[object Array]"){if(f=a.length,g=f==c.length)for(;f--;)if(!(g=f in a==f in c&&q(a[f],c[f],d)))break}else{if("constructor"in a!="constructor"in c||a.constructor!=c.constructor)return false;for(var h in a)if(b.has(a,h)&&(f++,!(g=b.has(c,h)&&q(a[h],c[h],d))))break;if(g){for(h in c)if(b.has(c,
-h)&&!f--)break;g=!f}}d.pop();return g}var r=this,G=r._,n={},k=Array.prototype,o=Object.prototype,i=k.slice,H=k.unshift,l=o.toString,I=o.hasOwnProperty,w=k.forEach,x=k.map,y=k.reduce,z=k.reduceRight,A=k.filter,B=k.every,C=k.some,p=k.indexOf,D=k.lastIndexOf,o=Array.isArray,J=Object.keys,s=Function.prototype.bind,b=function(a){return new m(a)};if(typeof exports!=="undefined"){if(typeof module!=="undefined"&&module.exports)exports=module.exports=b;exports._=b}else r._=b;b.VERSION="1.3.1";var j=b.each=
-b.forEach=function(a,c,d){if(a!=null)if(w&&a.forEach===w)a.forEach(c,d);else if(a.length===+a.length)for(var e=0,f=a.length;e<f;e++){if(e in a&&c.call(d,a[e],e,a)===n)break}else for(e in a)if(b.has(a,e)&&c.call(d,a[e],e,a)===n)break};b.map=b.collect=function(a,c,b){var e=[];if(a==null)return e;if(x&&a.map===x)return a.map(c,b);j(a,function(a,g,h){e[e.length]=c.call(b,a,g,h)});if(a.length===+a.length)e.length=a.length;return e};b.reduce=b.foldl=b.inject=function(a,c,d,e){var f=arguments.length>2;a==
-null&&(a=[]);if(y&&a.reduce===y)return e&&(c=b.bind(c,e)),f?a.reduce(c,d):a.reduce(c);j(a,function(a,b,i){f?d=c.call(e,d,a,b,i):(d=a,f=true)});if(!f)throw new TypeError("Reduce of empty array with no initial value");return d};b.reduceRight=b.foldr=function(a,c,d,e){var f=arguments.length>2;a==null&&(a=[]);if(z&&a.reduceRight===z)return e&&(c=b.bind(c,e)),f?a.reduceRight(c,d):a.reduceRight(c);var g=b.toArray(a).reverse();e&&!f&&(c=b.bind(c,e));return f?b.reduce(g,c,d,e):b.reduce(g,c)};b.find=b.detect=
-function(a,c,b){var e;E(a,function(a,g,h){if(c.call(b,a,g,h))return e=a,true});return e};b.filter=b.select=function(a,c,b){var e=[];if(a==null)return e;if(A&&a.filter===A)return a.filter(c,b);j(a,function(a,g,h){c.call(b,a,g,h)&&(e[e.length]=a)});return e};b.reject=function(a,c,b){var e=[];if(a==null)return e;j(a,function(a,g,h){c.call(b,a,g,h)||(e[e.length]=a)});return e};b.every=b.all=function(a,c,b){var e=true;if(a==null)return e;if(B&&a.every===B)return a.every(c,b);j(a,function(a,g,h){if(!(e=
-e&&c.call(b,a,g,h)))return n});return e};var E=b.some=b.any=function(a,c,d){c||(c=b.identity);var e=false;if(a==null)return e;if(C&&a.some===C)return a.some(c,d);j(a,function(a,b,h){if(e||(e=c.call(d,a,b,h)))return n});return!!e};b.include=b.contains=function(a,c){var b=false;if(a==null)return b;return p&&a.indexOf===p?a.indexOf(c)!=-1:b=E(a,function(a){return a===c})};b.invoke=function(a,c){var d=i.call(arguments,2);return b.map(a,function(a){return(b.isFunction(c)?c||a:a[c]).apply(a,d)})};b.pluck=
-function(a,c){return b.map(a,function(a){return a[c]})};b.max=function(a,c,d){if(!c&&b.isArray(a))return Math.max.apply(Math,a);if(!c&&b.isEmpty(a))return-Infinity;var e={computed:-Infinity};j(a,function(a,b,h){b=c?c.call(d,a,b,h):a;b>=e.computed&&(e={value:a,computed:b})});return e.value};b.min=function(a,c,d){if(!c&&b.isArray(a))return Math.min.apply(Math,a);if(!c&&b.isEmpty(a))return Infinity;var e={computed:Infinity};j(a,function(a,b,h){b=c?c.call(d,a,b,h):a;b<e.computed&&(e={value:a,computed:b})});
-return e.value};b.shuffle=function(a){var b=[],d;j(a,function(a,f){f==0?b[0]=a:(d=Math.floor(Math.random()*(f+1)),b[f]=b[d],b[d]=a)});return b};b.sortBy=function(a,c,d){return b.pluck(b.map(a,function(a,b,g){return{value:a,criteria:c.call(d,a,b,g)}}).sort(function(a,b){var c=a.criteria,d=b.criteria;return c<d?-1:c>d?1:0}),"value")};b.groupBy=function(a,c){var d={},e=b.isFunction(c)?c:function(a){return a[c]};j(a,function(a,b){var c=e(a,b);(d[c]||(d[c]=[])).push(a)});return d};b.sortedIndex=function(a,
-c,d){d||(d=b.identity);for(var e=0,f=a.length;e<f;){var g=e+f>>1;d(a[g])<d(c)?e=g+1:f=g}return e};b.toArray=function(a){return!a?[]:a.toArray?a.toArray():b.isArray(a)?i.call(a):b.isArguments(a)?i.call(a):b.values(a)};b.size=function(a){return b.toArray(a).length};b.first=b.head=function(a,b,d){return b!=null&&!d?i.call(a,0,b):a[0]};b.initial=function(a,b,d){return i.call(a,0,a.length-(b==null||d?1:b))};b.last=function(a,b,d){return b!=null&&!d?i.call(a,Math.max(a.length-b,0)):a[a.length-1]};b.rest=
-b.tail=function(a,b,d){return i.call(a,b==null||d?1:b)};b.compact=function(a){return b.filter(a,function(a){return!!a})};b.flatten=function(a,c){return b.reduce(a,function(a,e){if(b.isArray(e))return a.concat(c?e:b.flatten(e));a[a.length]=e;return a},[])};b.without=function(a){return b.difference(a,i.call(arguments,1))};b.uniq=b.unique=function(a,c,d){var d=d?b.map(a,d):a,e=[];b.reduce(d,function(d,g,h){if(0==h||(c===true?b.last(d)!=g:!b.include(d,g)))d[d.length]=g,e[e.length]=a[h];return d},[]);
-return e};b.union=function(){return b.uniq(b.flatten(arguments,true))};b.intersection=b.intersect=function(a){var c=i.call(arguments,1);return b.filter(b.uniq(a),function(a){return b.every(c,function(c){return b.indexOf(c,a)>=0})})};b.difference=function(a){var c=b.flatten(i.call(arguments,1));return b.filter(a,function(a){return!b.include(c,a)})};b.zip=function(){for(var a=i.call(arguments),c=b.max(b.pluck(a,"length")),d=Array(c),e=0;e<c;e++)d[e]=b.pluck(a,""+e);return d};b.indexOf=function(a,c,
-d){if(a==null)return-1;var e;if(d)return d=b.sortedIndex(a,c),a[d]===c?d:-1;if(p&&a.indexOf===p)return a.indexOf(c);for(d=0,e=a.length;d<e;d++)if(d in a&&a[d]===c)return d;return-1};b.lastIndexOf=function(a,b){if(a==null)return-1;if(D&&a.lastIndexOf===D)return a.lastIndexOf(b);for(var d=a.length;d--;)if(d in a&&a[d]===b)return d;return-1};b.range=function(a,b,d){arguments.length<=1&&(b=a||0,a=0);for(var d=arguments[2]||1,e=Math.max(Math.ceil((b-a)/d),0),f=0,g=Array(e);f<e;)g[f++]=a,a+=d;return g};
-var F=function(){};b.bind=function(a,c){var d,e;if(a.bind===s&&s)return s.apply(a,i.call(arguments,1));if(!b.isFunction(a))throw new TypeError;e=i.call(arguments,2);return d=function(){if(!(this instanceof d))return a.apply(c,e.concat(i.call(arguments)));F.prototype=a.prototype;var b=new F,g=a.apply(b,e.concat(i.call(arguments)));return Object(g)===g?g:b}};b.bindAll=function(a){var c=i.call(arguments,1);c.length==0&&(c=b.functions(a));j(c,function(c){a[c]=b.bind(a[c],a)});return a};b.memoize=function(a,
-c){var d={};c||(c=b.identity);return function(){var e=c.apply(this,arguments);return b.has(d,e)?d[e]:d[e]=a.apply(this,arguments)}};b.delay=function(a,b){var d=i.call(arguments,2);return setTimeout(function(){return a.apply(a,d)},b)};b.defer=function(a){return b.delay.apply(b,[a,1].concat(i.call(arguments,1)))};b.throttle=function(a,c){var d,e,f,g,h,i=b.debounce(function(){h=g=false},c);return function(){d=this;e=arguments;var b;f||(f=setTimeout(function(){f=null;h&&a.apply(d,e);i()},c));g?h=true:
-a.apply(d,e);i();g=true}};b.debounce=function(a,b){var d;return function(){var e=this,f=arguments;clearTimeout(d);d=setTimeout(function(){d=null;a.apply(e,f)},b)}};b.once=function(a){var b=false,d;return function(){if(b)return d;b=true;return d=a.apply(this,arguments)}};b.wrap=function(a,b){return function(){var d=[a].concat(i.call(arguments,0));return b.apply(this,d)}};b.compose=function(){var a=arguments;return function(){for(var b=arguments,d=a.length-1;d>=0;d--)b=[a[d].apply(this,b)];return b[0]}};
-b.after=function(a,b){return a<=0?b():function(){if(--a<1)return b.apply(this,arguments)}};b.keys=J||function(a){if(a!==Object(a))throw new TypeError("Invalid object");var c=[],d;for(d in a)b.has(a,d)&&(c[c.length]=d);return c};b.values=function(a){return b.map(a,b.identity)};b.functions=b.methods=function(a){var c=[],d;for(d in a)b.isFunction(a[d])&&c.push(d);return c.sort()};b.extend=function(a){j(i.call(arguments,1),function(b){for(var d in b)a[d]=b[d]});return a};b.defaults=function(a){j(i.call(arguments,
-1),function(b){for(var d in b)a[d]==null&&(a[d]=b[d])});return a};b.clone=function(a){return!b.isObject(a)?a:b.isArray(a)?a.slice():b.extend({},a)};b.tap=function(a,b){b(a);return a};b.isEqual=function(a,b){return q(a,b,[])};b.isEmpty=function(a){if(b.isArray(a)||b.isString(a))return a.length===0;for(var c in a)if(b.has(a,c))return false;return true};b.isElement=function(a){return!!(a&&a.nodeType==1)};b.isArray=o||function(a){return l.call(a)=="[object Array]"};b.isObject=function(a){return a===Object(a)};
-b.isArguments=function(a){return l.call(a)=="[object Arguments]"};if(!b.isArguments(arguments))b.isArguments=function(a){return!(!a||!b.has(a,"callee"))};b.isFunction=function(a){return l.call(a)=="[object Function]"};b.isString=function(a){return l.call(a)=="[object String]"};b.isNumber=function(a){return l.call(a)=="[object Number]"};b.isNaN=function(a){return a!==a};b.isBoolean=function(a){return a===true||a===false||l.call(a)=="[object Boolean]"};b.isDate=function(a){return l.call(a)=="[object Date]"};
-b.isRegExp=function(a){return l.call(a)=="[object RegExp]"};b.isNull=function(a){return a===null};b.isUndefined=function(a){return a===void 0};b.has=function(a,b){return I.call(a,b)};b.noConflict=function(){r._=G;return this};b.identity=function(a){return a};b.times=function(a,b,d){for(var e=0;e<a;e++)b.call(d,e)};b.escape=function(a){return(""+a).replace(/&/g,"&amp;").replace(/</g,"&lt;").replace(/>/g,"&gt;").replace(/"/g,"&quot;").replace(/'/g,"&#x27;").replace(/\//g,"&#x2F;")};b.mixin=function(a){j(b.functions(a),
-function(c){K(c,b[c]=a[c])})};var L=0;b.uniqueId=function(a){var b=L++;return a?a+b:b};b.templateSettings={evaluate:/<%([\s\S]+?)%>/g,interpolate:/<%=([\s\S]+?)%>/g,escape:/<%-([\s\S]+?)%>/g};var t=/.^/,u=function(a){return a.replace(/\\\\/g,"\\").replace(/\\'/g,"'")};b.template=function(a,c){var d=b.templateSettings,d="var __p=[],print=function(){__p.push.apply(__p,arguments);};with(obj||{}){__p.push('"+a.replace(/\\/g,"\\\\").replace(/'/g,"\\'").replace(d.escape||t,function(a,b){return"',_.escape("+
-u(b)+"),'"}).replace(d.interpolate||t,function(a,b){return"',"+u(b)+",'"}).replace(d.evaluate||t,function(a,b){return"');"+u(b).replace(/[\r\n\t]/g," ")+";__p.push('"}).replace(/\r/g,"\\r").replace(/\n/g,"\\n").replace(/\t/g,"\\t")+"');}return __p.join('');",e=new Function("obj","_",d);return c?e(c,b):function(a){return e.call(this,a,b)}};b.chain=function(a){return b(a).chain()};var m=function(a){this._wrapped=a};b.prototype=m.prototype;var v=function(a,c){return c?b(a).chain():a},K=function(a,c){m.prototype[a]=
-function(){var a=i.call(arguments);H.call(a,this._wrapped);return v(c.apply(b,a),this._chain)}};b.mixin(b);j("pop,push,reverse,shift,sort,splice,unshift".split(","),function(a){var b=k[a];m.prototype[a]=function(){var d=this._wrapped;b.apply(d,arguments);var e=d.length;(a=="shift"||a=="splice")&&e===0&&delete d[0];return v(d,this._chain)}});j(["concat","join","slice"],function(a){var b=k[a];m.prototype[a]=function(){return v(b.apply(this._wrapped,arguments),this._chain)}});m.prototype.chain=function(){this._chain=
-true;return this};m.prototype.value=function(){return this._wrapped}}).call(this);
diff --git a/annotated.html b/annotated.html
index 34982ecce..747299b11 100644
--- a/annotated.html
+++ b/annotated.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Class List</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,15 +75,68 @@
 </div><!--header-->
 <div class="contents">
 <div class="textblock">Here are the classes, structs, unions and interfaces with brief descriptions:</div><div class="directory">
-<div class="levels">[detail level <span onclick="javascript:toggleLevel(1);">1</span><span onclick="javascript:toggleLevel(2);">2</span>]</div><table class="directory">
-<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><b>fbgemm_gpu</b></td><td class="desc"></td></tr>
-<tr id="row_0_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_comparator.html" target="_self">Comparator</a></td><td class="desc">Warp bitonic K/V sorting code from @jhj </td></tr>
+<div class="levels">[detail level <span onclick="javascript:dynsection.toggleLevel(1);">1</span><span onclick="javascript:dynsection.toggleLevel(2);">2</span>]</div><table class="directory">
+<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="dynsection.toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacefbgemm__gpu.html" target="_self">fbgemm_gpu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html" target="_self">BitonicSort</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_comparator.html" target="_self">Comparator</a></td><td class="desc">Warp bitonic K/V sorting code </td></tr>
+<tr id="row_0_2_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html" target="_self">DefaultPtrTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_3_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1enum__registration.html" target="_self">enum_registration</a></td><td class="desc"></td></tr>
+<tr id="row_0_4_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html" target="_self">FixedDivisor</a></td><td class="desc"></td></tr>
+<tr id="row_0_5_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html" target="_self">GenericPackedTensorAccessor</a></td><td class="desc"></td></tr>
+<tr id="row_0_6_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html" target="_self">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_7_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" target="_self">GenericPackedTensorAccessorBase</a></td><td class="desc"></td></tr>
+<tr id="row_0_8_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_half4.html" target="_self">Half4</a></td><td class="desc"></td></tr>
+<tr id="row_0_9_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html" target="_self">PermutePooledEmbsFunction</a></td><td class="desc"></td></tr>
+<tr id="row_0_10_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html" target="_self">PermutePooledEmbsFunctionSplit</a></td><td class="desc"></td></tr>
+<tr id="row_0_11_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1rk__state.html" target="_self">rk_state</a></td><td class="desc"></td></tr>
+<tr id="row_0_12_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory.html" target="_self">SharedMemory</a></td><td class="desc"></td></tr>
+<tr id="row_0_13_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html" target="_self">SharedMemory&lt; double &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_14_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html" target="_self">SharedMemory&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_15_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html" target="_self">SharedMemory&lt; int32_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_16_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html" target="_self">SharedMemory&lt; int64_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_17_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html" target="_self">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_18_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html" target="_self">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_19_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html" target="_self">StochasticRoundingRNGState</a></td><td class="desc"></td></tr>
+<tr id="row_0_20_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html" target="_self">TensorAccessor</a></td><td class="desc"></td></tr>
+<tr id="row_0_21_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html" target="_self">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_22_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html" target="_self">TensorAccessorBase</a></td><td class="desc"></td></tr>
+<tr id="row_0_23_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html" target="_self">Vec4AccT</a></td><td class="desc"></td></tr>
+<tr id="row_0_24_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html" target="_self">Vec4StepT</a></td><td class="desc"></td></tr>
+<tr id="row_0_25_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html" target="_self">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_26_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html" target="_self">Vec4StepT&lt; STEP, float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_27_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html" target="_self">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_28_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html" target="_self">Vec4T</a></td><td class="desc"></td></tr>
+<tr id="row_0_29_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html" target="_self">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_30_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html" target="_self">Vec4T&lt; at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_31_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html" target="_self">Vec4T&lt; double &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_32_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html" target="_self">Vec4T&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_33_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html" target="_self">VecNT</a></td><td class="desc"></td></tr>
+<tr id="row_0_34_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_35_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_36_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_37_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_38_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_39_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_40_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_weight_row.html" target="_self">WeightRow</a></td><td class="desc"></td></tr>
+<tr id="row_1_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_1_" class="arrow" onclick="dynsection.toggleFolder('1_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespaceinternal.html" target="_self">internal</a></td><td class="desc"></td></tr>
+<tr id="row_1_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html" target="_self">HyperCompressedSparseColumn</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_2_" class="arrow" onclick="dynsection.toggleFolder('2_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacessd.html" target="_self">ssd</a></td><td class="desc"></td></tr>
+<tr id="row_2_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classssd_1_1_embedding_rocks_d_b.html" target="_self">EmbeddingRocksDB</a></td><td class="desc"></td></tr>
+<tr id="row_2_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classssd_1_1_initializer.html" target="_self">Initializer</a></td><td class="desc"></td></tr>
+<tr id="row_3_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc.html" target="_self">log2_calc</a></td><td class="desc"></td></tr>
+<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc__.html" target="_self">log2_calc_</a></td><td class="desc"></td></tr>
+<tr id="row_5_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc___3_010_01_4.html" target="_self">log2_calc_&lt; 0 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_stack_array.html" target="_self">StackArray</a></td><td class="desc"></td></tr>
+<tr id="row_7_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type.html" target="_self">Vec4Type</a></td><td class="desc"></td></tr>
+<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html" target="_self">Vec4Type&lt; at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_9_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01float_01_4.html" target="_self">Vec4Type&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html" target="_self">Vec4Type&lt; uint8_t &gt;</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/batch__index__select__dim0__cpu__host_8cpp.html b/batch__index__select__dim0__cpu__host_8cpp.html
new file mode 100644
index 000000000..9e3f63b23
--- /dev/null
+++ b/batch__index__select__dim0__cpu__host_8cpp.html
@@ -0,0 +1,193 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/batch_index_select_dim0_cpu_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">batch_index_select_dim0_cpu_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa719f2231fb791074324f6bbeace9d0c" name="aa719f2231fb791074324f6bbeace9d0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa719f2231fb791074324f6bbeace9d0c">&#9670;&#160;</a></span>batch_index_select_dim0_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>inputs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_num_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/batch__index__select__dim0__host_8cpp.html b/batch__index__select__dim0__host_8cpp.html
new file mode 100644
index 000000000..80de2bca2
--- /dev/null
+++ b/batch__index__select__dim0__host_8cpp.html
@@ -0,0 +1,345 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/batch_index_select_dim0_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">batch_index_select_dim0_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5709eebbefa399282269508003e47e25" name="a5709eebbefa399282269508003e47e25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5709eebbefa399282269508003e47e25">&#9670;&#160;</a></span>batch_index_select_dim0_codegen_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_codegen_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5951ed801e11a01c29c7bbfb648ee230" name="a5951ed801e11a01c29c7bbfb648ee230"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5951ed801e11a01c29c7bbfb648ee230">&#9670;&#160;</a></span>batch_index_select_dim0_codegen_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_codegen_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5bad7a4ddb5cf6144ad19b6296ef585c" name="a5bad7a4ddb5cf6144ad19b6296ef585c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5bad7a4ddb5cf6144ad19b6296ef585c">&#9670;&#160;</a></span>batch_index_select_dim0_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>inputs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_num_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_columns</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/batched__dense__vec__jagged__2d__mul__backward_8cu.html b/batched__dense__vec__jagged__2d__mul__backward_8cu.html
new file mode 100644
index 000000000..71735d7bf
--- /dev/null
+++ b/batched__dense__vec__jagged__2d__mul__backward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/batched_dense_vec_jagged_2d_mul_backward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">batched_dense_vec_jagged_2d_mul_backward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a505e960fb46aaed90cbf00060c4f7f73" name="a505e960fb46aaed90cbf00060c4f7f73"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a505e960fb46aaed90cbf00060c4f7f73">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;batched_dense_vec_jagged_2d_mul_backward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae815e5156f29e106f0fcb6054d386afa">fbgemm_gpu::batched_dense_vec_jagged_2d_mul_backward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/batched__dense__vec__jagged__2d__mul__forward_8cu.html b/batched__dense__vec__jagged__2d__mul__forward_8cu.html
new file mode 100644
index 000000000..19f141cb7
--- /dev/null
+++ b/batched__dense__vec__jagged__2d__mul__forward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/batched_dense_vec_jagged_2d_mul_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">batched_dense_vec_jagged_2d_mul_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae6d9314c75be8852a64432f06a618a51" name="ae6d9314c75be8852a64432f06a618a51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6d9314c75be8852a64432f06a618a51">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;batched_dense_vec_jagged_2d_mul_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ac3080e0008d5cdd9f1f32b33e38aee95">fbgemm_gpu::batched_dense_vec_jagged_2d_mul_forward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/bench__utils_8cuh.html b/bench__utils_8cuh.html
new file mode 100644
index 000000000..eceedcb78
--- /dev/null
+++ b/bench__utils_8cuh.html
@@ -0,0 +1,238 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/bench_utils.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">bench_utils.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;c10/cuda/CUDAException.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;curand.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+<code>#include &quot;<a class="el" href="cuda__utils_8cuh.html">./cuda_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a59e0073dcf6e90b2d7a7b38f6210cb50" name="a59e0073dcf6e90b2d7a7b38f6210cb50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59e0073dcf6e90b2d7a7b38f6210cb50">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8b8729bf92a232e1ff3403ebe7089fdd" name="a8b8729bf92a232e1ff3403ebe7089fdd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8b8729bf92a232e1ff3403ebe7089fdd">&#9670;&#160;</a></span>benchmark_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Lambda &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> benchmark_function </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>iters</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Lambda &amp;&amp;</td>          <td class="paramname"><span class="paramname"><em>f</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7fcbe2b8cc9b7676bb24b328fd41dc3a" name="a7fcbe2b8cc9b7676bb24b328fd41dc3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7fcbe2b8cc9b7676bb24b328fd41dc3a">&#9670;&#160;</a></span>flush_cache()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void flush_cache </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>cache_size_mb</em><span class="paramdefsep"> = </span><span class="paramdefval">40</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>do_write</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0899793cc86846edfa6ccefb7905f55c" name="a0899793cc86846edfa6ccefb7905f55c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0899793cc86846edfa6ccefb7905f55c">&#9670;&#160;</a></span>generate_random_table()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void generate_random_table </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>d_f32_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">unsigned</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa3487d3e764e516ac71de417077959a6" name="aa3487d3e764e516ac71de417077959a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3487d3e764e516ac71de417077959a6">&#9670;&#160;</a></span>if()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#af01122d304bbe0308fe6c59bebe33730">do_write</a> *</td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a33347a1447f1a3618e698f9d5914c253" name="a33347a1447f1a3618e698f9d5914c253"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33347a1447f1a3618e698f9d5914c253">&#9670;&#160;</a></span>d_flush2</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ char* d_flush2</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af01122d304bbe0308fe6c59bebe33730" name="af01122d304bbe0308fe6c59bebe33730"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af01122d304bbe0308fe6c59bebe33730">&#9670;&#160;</a></span>do_write</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ char bool do_write</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keywordtype">int</span> idx = blockIdx.x * blockDim.x + threadIdx.x</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a0f88d66987f307f00e5868889c52df87" name="a0f88d66987f307f00e5868889c52df87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f88d66987f307f00e5868889c52df87">&#9670;&#160;</a></span>val</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">char val = d_flush[idx]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classes.html b/classes.html
index 24145a841..c4683d8ed 100644
--- a/classes.html
+++ b/classes.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Class Index</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -72,16 +74,58 @@
   <div class="headertitle"><div class="title">Class Index</div></div>
 </div><!--header-->
 <div class="contents">
-<div class="qindex"><a class="qindex" href="#letter_C">C</a></div>
+<div class="qindex"><a class="qindex" href="#letter_B">B</a>&#160;|&#160;<a class="qindex" href="#letter_C">C</a>&#160;|&#160;<a class="qindex" href="#letter_D">D</a>&#160;|&#160;<a class="qindex" href="#letter_E">E</a>&#160;|&#160;<a class="qindex" href="#letter_F">F</a>&#160;|&#160;<a class="qindex" href="#letter_G">G</a>&#160;|&#160;<a class="qindex" href="#letter_H">H</a>&#160;|&#160;<a class="qindex" href="#letter_I">I</a>&#160;|&#160;<a class="qindex" href="#letter_L">L</a>&#160;|&#160;<a class="qindex" href="#letter_P">P</a>&#160;|&#160;<a class="qindex" href="#letter_R">R</a>&#160;|&#160;<a class="qindex" href="#letter_S">S</a>&#160;|&#160;<a class="qindex" href="#letter_T">T</a>&#160;|&#160;<a class="qindex" href="#letter_V">V</a>&#160;|&#160;<a class="qindex" href="#letter_W">W</a></div>
 <div class="classindex">
 <dl class="classindex even">
+<dt class="alphachar"><a id="letter_B" name="letter_B">B</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex odd">
 <dt class="alphachar"><a id="letter_C" name="letter_C">C</a></dt>
-<dd><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a> (fbgemm_gpu)</dd></dl>
+<dd><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_D" name="letter_D">D</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_E" name="letter_E">E</a></dt>
+<dd><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a> (<a class="el" href="namespacessd.html">ssd</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_F" name="letter_F">F</a></dt>
+<dd><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_G" name="letter_G">G</a></dt>
+<dd><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_H" name="letter_H">H</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a> (<a class="el" href="namespaceinternal.html">internal</a>)</dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_I" name="letter_I">I</a></dt>
+<dd><a class="el" href="classssd_1_1_initializer.html">Initializer</a> (<a class="el" href="namespacessd.html">ssd</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_L" name="letter_L">L</a></dt>
+<dd><a class="el" href="structlog2__calc.html">log2_calc</a></dd><dd><a class="el" href="structlog2__calc__.html">log2_calc_</a></dd><dd><a class="el" href="structlog2__calc___3_010_01_4.html">log2_calc_&lt; 0 &gt;</a></dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_P" name="letter_P">P</a></dt>
+<dd><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_R" name="letter_R">R</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_S" name="letter_S">S</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory.html">SharedMemory</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="struct_stack_array.html">StackArray</a></dd><dd><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_T" name="letter_T">T</a></dt>
+<dd><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex odd">
+<dt class="alphachar"><a id="letter_V" name="letter_V">V</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="struct_vec4_type.html">Vec4Type</a></dd><dd><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></dd><dd><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></dd><dd><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd><dd><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
+<dl class="classindex even">
+<dt class="alphachar"><a id="letter_W" name="letter_W">W</a></dt>
+<dd><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a> (<a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a>)</dd></dl>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/classfbgemm__gpu_1_1_fixed_divisor-members.html b/classfbgemm__gpu_1_1_fixed_divisor-members.html
new file mode 100644
index 000000000..f7e47aa01
--- /dev/null
+++ b/classfbgemm__gpu_1_1_fixed_divisor-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">FixedDivisor Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#aa0904583fc7c962f6ae008052d6dadf7">D</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a74e5cb4569d6d48cbc0ee32674a7e374">Div</a>(const int32_t n) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#abea2bdfe3649f1b944a15453e78ae523">DivMod</a>(const int32_t n, int32_t *q, int32_t *r) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a80d1fd876167b0bbb2d6a7ebdaa97270">FixedDivisor</a>(const int32_t d)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">explicit</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a604d46db75c43e0cd210e5b2ab2bc7e6">Mod</a>(const int32_t n) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_fixed_divisor.html b/classfbgemm__gpu_1_1_fixed_divisor.html
new file mode 100644
index 000000000..80b8065f8
--- /dev/null
+++ b/classfbgemm__gpu_1_1_fixed_divisor.html
@@ -0,0 +1,234 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: FixedDivisor Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_fixed_divisor-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">FixedDivisor Class Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a80d1fd876167b0bbb2d6a7ebdaa97270" name="a80d1fd876167b0bbb2d6a7ebdaa97270"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80d1fd876167b0bbb2d6a7ebdaa97270">&#9670;&#160;</a></span>FixedDivisor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>d</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">explicit</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aa0904583fc7c962f6ae008052d6dadf7" name="aa0904583fc7c962f6ae008052d6dadf7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0904583fc7c962f6ae008052d6dadf7">&#9670;&#160;</a></span>D()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> D </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a74e5cb4569d6d48cbc0ee32674a7e374" name="a74e5cb4569d6d48cbc0ee32674a7e374"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74e5cb4569d6d48cbc0ee32674a7e374">&#9670;&#160;</a></span>Div()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> Div </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>n</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>Calculates <code>q = n / d</code>. </p>
+
+</div>
+</div>
+<a id="abea2bdfe3649f1b944a15453e78ae523" name="abea2bdfe3649f1b944a15453e78ae523"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abea2bdfe3649f1b944a15453e78ae523">&#9670;&#160;</a></span>DivMod()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> DivMod </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>n</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *</td>          <td class="paramname"><span class="paramname"><em>q</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *</td>          <td class="paramname"><span class="paramname"><em>r</em></span>&#160;) const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>Calculates <code>q = n / d</code> and <code>r = n % d</code> together. </p>
+
+</div>
+</div>
+<a id="a604d46db75c43e0cd210e5b2ab2bc7e6" name="a604d46db75c43e0cd210e5b2ab2bc7e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a604d46db75c43e0cd210e5b2ab2bc7e6">&#9670;&#160;</a></span>Mod()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> Mod </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>n</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>Calculates <code>r = n % d</code>. </p>
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor-members.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor-members.html
new file mode 100644
index 000000000..ffc7b19ad
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor-members.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597">bounds_check_</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9">copy_str</a>(char *dst, const char *src, const size_t max_len)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa8ff94c7184e151415673957258747e2">GenericPackedTensorAccessor</a>(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07">GenericPackedTensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#aab339f541ab3ce6195cabda68f736598">GenericPackedTensorAccessorBase</a>(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ab6e8f8fe313b1de35e94636bdd4e34dd">operator[]</a>(index_t i)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a6933e03eff2b2428f9eb67e597a520c1">operator[]</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa4aba7637a10c7b8b839ef27952e855d">transpose</a>(index_t dim1, index_t dim2) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html
new file mode 100644
index 000000000..e43469bd8
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html
@@ -0,0 +1,309 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.png" usemap="#GenericPackedTensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="GenericPackedTensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="GenericPackedTensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" alt="GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;" shape="rect" coords="0,0,411,24"/>
+  </map>
+</div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="pub-methods" name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:aa4aba7637a10c7b8b839ef27952e855d" id="r_aa4aba7637a10c7b8b839ef27952e855d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#aa4aba7637a10c7b8b839ef27952e855d">transpose</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dim1</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dim2</a>) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td></tr>
+<tr class="separator:aa4aba7637a10c7b8b839ef27952e855d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a05cb3acde0a408e40526aad85584b274" name="a05cb3acde0a408e40526aad85584b274"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05cb3acde0a408e40526aad85584b274">&#9670;&#160;</a></span>GenericPackedTensorAccessor() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8ff94c7184e151415673957258747e2" name="aa8ff94c7184e151415673957258747e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8ff94c7184e151415673957258747e2">&#9670;&#160;</a></span>GenericPackedTensorAccessor() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a>  = typename std::enable_if&lt;          std::is_same&lt;source_index_t, int64_t&gt;::value&gt;::type&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ab6e8f8fe313b1de35e94636bdd4e34dd" name="ab6e8f8fe313b1de35e94636bdd4e34dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6e8f8fe313b1de35e94636bdd4e34dd">&#9670;&#160;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a> - 1, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6933e03eff2b2428f9eb67e597a520c1" name="a6933e03eff2b2428f9eb67e597a520c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6933e03eff2b2428f9eb67e597a520c1">&#9670;&#160;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a> - 1, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa4aba7637a10c7b8b839ef27952e855d" name="aa4aba7637a10c7b8b839ef27952e855d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa4aba7637a10c7b8b839ef27952e855d">&#9670;&#160;</a></span>transpose()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; transpose </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>dim1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>dim2</em></span>&#160;) const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Returns a PackedTensorAccessor of the same dimension after transposing the two dimensions given. Does not actually move elements; transposition is made by permuting the size/stride arrays. If the dimensions are not valid, asserts. </p>
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.png b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.png
new file mode 100644
index 000000000..71fdd3b72
Binary files /dev/null and b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor.png differ
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html
new file mode 100644
index 000000000..a6de37d61
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597">bounds_check_</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9">copy_str</a>(char *dst, const char *src, const size_t max_len)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#aa8ff94c7184e151415673957258747e2">GenericPackedTensorAccessor</a>(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07">GenericPackedTensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#aab339f541ab3ce6195cabda68f736598">GenericPackedTensorAccessorBase</a>(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3593eea2d954fec0db1139e509206816">operator[]</a>(index_t i)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a07dee357cdcdf158224410aaf987e7d3">operator[]</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a0ed7d1e6f585332c781fc568e1fad1ac">transpose</a>(index_t dim1, index_t dim2) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html
new file mode 100644
index 000000000..9dc85f502
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html
@@ -0,0 +1,301 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png" usemap="#GenericPackedTensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="GenericPackedTensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="GenericPackedTensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" alt="GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;" shape="rect" coords="0,0,372,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a05cb3acde0a408e40526aad85584b274" name="a05cb3acde0a408e40526aad85584b274"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05cb3acde0a408e40526aad85584b274">&#9670;&#160;</a></span>GenericPackedTensorAccessor() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8ff94c7184e151415673957258747e2" name="aa8ff94c7184e151415673957258747e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8ff94c7184e151415673957258747e2">&#9670;&#160;</a></span>GenericPackedTensorAccessor() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a>  = typename std::enable_if&lt;          std::is_same&lt;source_index_t, int64_t&gt;::value&gt;::type&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3593eea2d954fec0db1139e509206816" name="a3593eea2d954fec0db1139e509206816"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3593eea2d954fec0db1139e509206816">&#9670;&#160;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_DEVICE</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07dee357cdcdf158224410aaf987e7d3" name="a07dee357cdcdf158224410aaf987e7d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07dee357cdcdf158224410aaf987e7d3">&#9670;&#160;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ed7d1e6f585332c781fc568e1fad1ac" name="a0ed7d1e6f585332c781fc568e1fad1ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ed7d1e6f585332c781fc568e1fad1ac">&#9670;&#160;</a></span>transpose()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, 1, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; transpose </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>dim1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>dim2</em></span>&#160;) const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png
new file mode 100644
index 000000000..8940c1c33
Binary files /dev/null and b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png differ
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base-members.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base-members.html
new file mode 100644
index 000000000..41c5c7a91
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base-members.html
@@ -0,0 +1,106 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597">bounds_check_</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9">copy_str</a>(char *dst, const char *src, const size_t max_len)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07">GenericPackedTensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#aab339f541ab3ce6195cabda68f736598">GenericPackedTensorAccessorBase</a>(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html
new file mode 100644
index 000000000..1e1ddba42
--- /dev/null
+++ b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html
@@ -0,0 +1,559 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.png" usemap="#GenericPackedTensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="GenericPackedTensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="GenericPackedTensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html" alt="GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;" shape="rect" coords="0,56,374,80"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ad3b41b3123d1d8bfc0e530b2323dde07" name="ad3b41b3123d1d8bfc0e530b2323dde07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad3b41b3123d1d8bfc0e530b2323dde07">&#9670;&#160;</a></span>GenericPackedTensorAccessorBase() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab339f541ab3ce6195cabda68f736598" name="aab339f541ab3ce6195cabda68f736598"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab339f541ab3ce6195cabda68f736598">&#9670;&#160;</a></span>GenericPackedTensorAccessorBase() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a>  = typename std::enable_if&lt;          std::is_same&lt;source_index_t, int64_t&gt;::value&gt;::type&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">source_index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a95ed732ddbdd788721e2c0fc17a3d8a0" name="a95ed732ddbdd788721e2c0fc17a3d8a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95ed732ddbdd788721e2c0fc17a3d8a0">&#9670;&#160;</a></span>at()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e958eecb22f175be483bef10d6e2597" name="a0e958eecb22f175be483bef10d6e2597"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e958eecb22f175be483bef10d6e2597">&#9670;&#160;</a></span>bounds_check_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> bounds_check_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7c56e8e49eb26679b9cf3a65c3bd38a9" name="a7c56e8e49eb26679b9cf3a65c3bd38a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c56e8e49eb26679b9cf3a65c3bd38a9">&#9670;&#160;</a></span>copy_str()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> copy_str </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>max_len</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a00eb43c6e0e2f9b3a5d083cf44bad46c" name="a00eb43c6e0e2f9b3a5d083cf44bad46c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a00eb43c6e0e2f9b3a5d083cf44bad46c">&#9670;&#160;</a></span>data() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a445a0aad25aa4b10485392cab109a77b" name="a445a0aad25aa4b10485392cab109a77b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a445a0aad25aa4b10485392cab109a77b">&#9670;&#160;</a></span>data() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53408e729e4cd52d06e5c577afbfcf9d" name="a53408e729e4cd52d06e5c577afbfcf9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53408e729e4cd52d06e5c577afbfcf9d">&#9670;&#160;</a></span>size()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> size </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a396d81b04ec72f4281d15a02c7840694" name="a396d81b04ec72f4281d15a02c7840694"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a396d81b04ec72f4281d15a02c7840694">&#9670;&#160;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> stride </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a677c54e91f2222170a12252fe509d069" name="a677c54e91f2222170a12252fe509d069"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a677c54e91f2222170a12252fe509d069">&#9670;&#160;</a></span>data_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a08cc832507584680a6266e8c20c52f" name="a1a08cc832507584680a6266e8c20c52f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a08cc832507584680a6266e8c20c52f">&#9670;&#160;</a></span>func_name_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> func_name_[FUNC_NAME_MAX_LEN]</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0cbc4b5fa9aa44d9a44f4df77fa5c2d" name="af0cbc4b5fa9aa44d9a44f4df77fa5c2d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">&#9670;&#160;</a></span>numel_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> numel_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7023a589c692642eb10fc0c64501a097" name="a7023a589c692642eb10fc0c64501a097"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7023a589c692642eb10fc0c64501a097">&#9670;&#160;</a></span>ptr_name_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> ptr_name_[PTR_NAME_MAX_LEN]</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2dd270bd9c520d7599dbc5626642cd9" name="ac2dd270bd9c520d7599dbc5626642cd9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2dd270bd9c520d7599dbc5626642cd9">&#9670;&#160;</a></span>sizes_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> sizes_[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a>]</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a20a855fc09b0bad6cc73895d2bd48bea" name="a20a855fc09b0bad6cc73895d2bd48bea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a20a855fc09b0bad6cc73895d2bd48bea">&#9670;&#160;</a></span>strides_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> strides_[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a>]</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.png b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.png
new file mode 100644
index 000000000..98add50b8
Binary files /dev/null and b/classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.png differ
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function-members.html b/classfbgemm__gpu_1_1_permute_pooled_embs_function-members.html
new file mode 100644
index 000000000..d413a41e2
--- /dev/null
+++ b/classfbgemm__gpu_1_1_permute_pooled_embs_function-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">PermutePooledEmbsFunction Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#ac7ddba5222bfda33f8a498f8394349bf">backward</a>(AutogradContext *ctx, variable_list grad_output)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#a278e4d6a68c0e694370831a0d04a2918">forward</a>(AutogradContext *ctx, const at::Tensor &amp;pooled_embs, const at::Tensor &amp;offset_dim_list, const at::Tensor &amp;permute_list, const at::Tensor &amp;inv_offset_dim_list, const at::Tensor &amp;inv_permute_list, const bool &amp;allow_duplicates=false)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function.html b/classfbgemm__gpu_1_1_permute_pooled_embs_function.html
new file mode 100644
index 000000000..0de750353
--- /dev/null
+++ b/classfbgemm__gpu_1_1_permute_pooled_embs_function.html
@@ -0,0 +1,185 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: PermutePooledEmbsFunction Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">PermutePooledEmbsFunction Class Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;permute_pooled_embedding_ops.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for PermutePooledEmbsFunction:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_permute_pooled_embs_function.png" alt=""/>
+ </div></div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ac7ddba5222bfda33f8a498f8394349bf" name="ac7ddba5222bfda33f8a498f8394349bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7ddba5222bfda33f8a498f8394349bf">&#9670;&#160;</a></span>backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">variable_list backward </td>
+          <td>(</td>
+          <td class="paramtype">AutogradContext *</td>          <td class="paramname"><span class="paramname"><em>ctx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">variable_list</td>          <td class="paramname"><span class="paramname"><em>grad_output</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a278e4d6a68c0e694370831a0d04a2918" name="a278e4d6a68c0e694370831a0d04a2918"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a278e4d6a68c0e694370831a0d04a2918">&#9670;&#160;</a></span>forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">Variable forward </td>
+          <td>(</td>
+          <td class="paramtype">AutogradContext *</td>          <td class="paramname"><span class="paramname"><em>ctx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>allow_duplicates</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following files:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="permute__pooled__embedding__ops_8h.html">permute_pooled_embedding_ops.h</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/<a class="el" href="permute__pooled__embedding__function_8cpp.html">permute_pooled_embedding_function.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function.png b/classfbgemm__gpu_1_1_permute_pooled_embs_function.png
new file mode 100644
index 000000000..ebef54aa5
Binary files /dev/null and b/classfbgemm__gpu_1_1_permute_pooled_embs_function.png differ
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function_split-members.html b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split-members.html
new file mode 100644
index 000000000..93626edbb
--- /dev/null
+++ b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#ad62a42e85be3aa7f972677a4f7b710f9">backward</a>(AutogradContext *ctx, variable_list grad_output)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#a83e4292464a5708945ca80a1f2171a27">forward</a>(AutogradContext *ctx, const at::Tensor &amp;pooled_embs, const at::Tensor &amp;offset_dim_list, const at::Tensor &amp;permute_list, const at::Tensor &amp;inv_offset_dim_list, const at::Tensor &amp;inv_permute_list)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html
new file mode 100644
index 000000000..daf499383
--- /dev/null
+++ b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html
@@ -0,0 +1,183 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;permute_pooled_embs_function_split.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.png" alt=""/>
+ </div></div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ad62a42e85be3aa7f972677a4f7b710f9" name="ad62a42e85be3aa7f972677a4f7b710f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad62a42e85be3aa7f972677a4f7b710f9">&#9670;&#160;</a></span>backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;torch::autograd::Variable(*)(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;) permute_pooled_embs_op&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> variable_list backward </td>
+          <td>(</td>
+          <td class="paramtype">AutogradContext *</td>          <td class="paramname"><span class="paramname"><em>ctx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">variable_list</td>          <td class="paramname"><span class="paramname"><em>grad_output</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83e4292464a5708945ca80a1f2171a27" name="a83e4292464a5708945ca80a1f2171a27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83e4292464a5708945ca80a1f2171a27">&#9670;&#160;</a></span>forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;torch::autograd::Variable(*)(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;) permute_pooled_embs_op&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> Variable forward </td>
+          <td>(</td>
+          <td class="paramtype">AutogradContext *</td>          <td class="paramname"><span class="paramname"><em>ctx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="permute__pooled__embs__function__split_8h.html">permute_pooled_embs_function_split.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.png b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.png
new file mode 100644
index 000000000..2ca03427c
Binary files /dev/null and b/classfbgemm__gpu_1_1_permute_pooled_embs_function_split.png differ
diff --git a/classfbgemm__gpu_1_1_tensor_accessor-members.html b/classfbgemm__gpu_1_1_tensor_accessor-members.html
new file mode 100644
index 000000000..4bc6a587d
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor-members.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">TensorAccessor&lt; T, N, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a72a3b6251f6388b00f3edcd8d3311600">operator[]</a>(index_t i)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a16735630a1b17005797473122c151321">operator[]</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e">sizes</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1">strides</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a6b681d8fc7f13b4b8d31426ec10a0f11">TensorAccessor</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af">TensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor.html b/classfbgemm__gpu_1_1_tensor_accessor.html
new file mode 100644
index 000000000..cf295edcf
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor.html
@@ -0,0 +1,222 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: TensorAccessor&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_tensor_accessor-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">TensorAccessor&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for TensorAccessor&lt; T, N, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_tensor_accessor.png" usemap="#TensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="TensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="TensorAccessor_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_tensor_accessor_base.html" alt="TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;" shape="rect" coords="0,0,324,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a6b681d8fc7f13b4b8d31426ec10a0f11" name="a6b681d8fc7f13b4b8d31426ec10a0f11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b681d8fc7f13b4b8d31426ec10a0f11">&#9670;&#160;</a></span>TensorAccessor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a72a3b6251f6388b00f3edcd8d3311600" name="a72a3b6251f6388b00f3edcd8d3311600"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a72a3b6251f6388b00f3edcd8d3311600">&#9670;&#160;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a> - 1, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16735630a1b17005797473122c151321" name="a16735630a1b17005797473122c151321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16735630a1b17005797473122c151321">&#9670;&#160;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a>&lt; <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">N</a> - 1, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor.png b/classfbgemm__gpu_1_1_tensor_accessor.png
new file mode 100644
index 000000000..c8fd4dd93
Binary files /dev/null and b/classfbgemm__gpu_1_1_tensor_accessor.png differ
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html
new file mode 100644
index 000000000..27c40fb2d
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a00a4aa208155f5c8a633eddc32351081">operator[]</a>(index_t i)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3b81b97c0e920adcd47b7f6a5b0af0cf">operator[]</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e">sizes</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1">strides</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a55169dff4cc835156c5ccd43240b4c8c">TensorAccessor</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af">TensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html
new file mode 100644
index 000000000..0d9da0746
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html
@@ -0,0 +1,222 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: TensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png" usemap="#TensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="TensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="TensorAccessor_3C_20T_2C_201_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_tensor_accessor_base.html" alt="TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;" shape="rect" coords="0,0,285,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a55169dff4cc835156c5ccd43240b4c8c" name="a55169dff4cc835156c5ccd43240b4c8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55169dff4cc835156c5ccd43240b4c8c">&#9670;&#160;</a></span>TensorAccessor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *</td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a00a4aa208155f5c8a633eddc32351081" name="a00a4aa208155f5c8a633eddc32351081"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a00a4aa208155f5c8a633eddc32351081">&#9670;&#160;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3b81b97c0e920adcd47b7f6a5b0af0cf" name="a3b81b97c0e920adcd47b7f6a5b0af0cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b81b97c0e920adcd47b7f6a5b0af0cf">&#9670;&#160;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">operator</a>[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png
new file mode 100644
index 000000000..bbf840bcf
Binary files /dev/null and b/classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.png differ
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_base-members.html b/classfbgemm__gpu_1_1_tensor_accessor_base-members.html
new file mode 100644
index 000000000..2c3f588fb
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor_base-members.html
@@ -0,0 +1,105 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">at</a>(index_t idx) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">data</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b">data</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">data_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498">func_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">numel_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16">ptr_name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> typedef</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">size</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e">sizes</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848">sizes_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">stride</a>(index_t i) const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1">strides</a>() const</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40">strides_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af">TensorAccessorBase</a>(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_base.html b/classfbgemm__gpu_1_1_tensor_accessor_base.html
new file mode 100644
index 000000000..2c96d0695
--- /dev/null
+++ b/classfbgemm__gpu_1_1_tensor_accessor_base.html
@@ -0,0 +1,502 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1_tensor_accessor_base-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classfbgemm__gpu_1_1_tensor_accessor_base.png" usemap="#TensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" alt=""/>
+  <map id="TensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map" name="TensorAccessorBase_3C_20T_2C_20N_2C_20PtrTraits_2C_20index_5Ft_20_3E_map">
+<area href="classfbgemm__gpu_1_1_tensor_accessor.html" alt="TensorAccessor&lt; T, N, PtrTraits, index_t &gt;" shape="rect" coords="0,56,287,80"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ade0d5b5196750e3a6fd1a8f88c665eb4" name="ade0d5b5196750e3a6fd1a8f88c665eb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade0d5b5196750e3a6fd1a8f88c665eb4">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;::PtrType <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ac139dc2b8e88aec4b189a6c41bc135af" name="ac139dc2b8e88aec4b189a6c41bc135af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac139dc2b8e88aec4b189a6c41bc135af">&#9670;&#160;</a></span>TensorAccessorBase()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a></td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>strides</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>func_name</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a95ed732ddbdd788721e2c0fc17a3d8a0" name="a95ed732ddbdd788721e2c0fc17a3d8a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95ed732ddbdd788721e2c0fc17a3d8a0">&#9670;&#160;</a></span>at()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp; at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a00eb43c6e0e2f9b3a5d083cf44bad46c" name="a00eb43c6e0e2f9b3a5d083cf44bad46c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a00eb43c6e0e2f9b3a5d083cf44bad46c">&#9670;&#160;</a></span>data() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a445a0aad25aa4b10485392cab109a77b" name="a445a0aad25aa4b10485392cab109a77b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a445a0aad25aa4b10485392cab109a77b">&#9670;&#160;</a></span>data() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53408e729e4cd52d06e5c577afbfcf9d" name="a53408e729e4cd52d06e5c577afbfcf9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53408e729e4cd52d06e5c577afbfcf9d">&#9670;&#160;</a></span>size()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> size </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b7afa180d3bd84115f26a365b167e5e" name="a5b7afa180d3bd84115f26a365b167e5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b7afa180d3bd84115f26a365b167e5e">&#9670;&#160;</a></span>sizes()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> at::IntArrayRef sizes </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a396d81b04ec72f4281d15a02c7840694" name="a396d81b04ec72f4281d15a02c7840694"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a396d81b04ec72f4281d15a02c7840694">&#9670;&#160;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> stride </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a></td>          <td class="paramname"><span class="paramname"><em>i</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af446bd0965fd0586067d176a1630a6c1" name="af446bd0965fd0586067d176a1630a6c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af446bd0965fd0586067d176a1630a6c1">&#9670;&#160;</a></span>strides()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST</a> at::IntArrayRef strides </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a677c54e91f2222170a12252fe509d069" name="a677c54e91f2222170a12252fe509d069"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a677c54e91f2222170a12252fe509d069">&#9670;&#160;</a></span>data_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ade0d5b5196750e3a6fd1a8f88c665eb4">PtrType</a> data_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6bf2b75bf9dc4183f00948671a67e498" name="a6bf2b75bf9dc4183f00948671a67e498"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bf2b75bf9dc4183f00948671a67e498">&#9670;&#160;</a></span>func_name_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> func_name_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0cbc4b5fa9aa44d9a44f4df77fa5c2d" name="af0cbc4b5fa9aa44d9a44f4df77fa5c2d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">&#9670;&#160;</a></span>numel_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> numel_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a504eb62b720c68145e6377f6b3eaac16" name="a504eb62b720c68145e6377f6b3eaac16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a504eb62b720c68145e6377f6b3eaac16">&#9670;&#160;</a></span>ptr_name_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> ptr_name_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3665ab1adc4a5618fa5e22e00ff0e848" name="a3665ab1adc4a5618fa5e22e00ff0e848"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3665ab1adc4a5618fa5e22e00ff0e848">&#9670;&#160;</a></span>sizes_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> sizes_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a44a19ea7efb719bdd2baac00add90d40" name="a44a19ea7efb719bdd2baac00add90d40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44a19ea7efb719bdd2baac00add90d40">&#9670;&#160;</a></span>strides_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>  = int64_t&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> strides_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1_tensor_accessor_base.png b/classfbgemm__gpu_1_1_tensor_accessor_base.png
new file mode 100644
index 000000000..973040bb8
Binary files /dev/null and b/classfbgemm__gpu_1_1_tensor_accessor_base.png differ
diff --git a/classfbgemm__gpu_1_1enum__registration-members.html b/classfbgemm__gpu_1_1enum__registration-members.html
new file mode 100644
index 000000000..5c684d988
--- /dev/null
+++ b/classfbgemm__gpu_1_1enum__registration-members.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">enum_registration&lt; T &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a84cad106fb24ea59687f6708d197cc64">enum_query</a>()</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afa13a8542c6dde450214a387cacf3a9b">enum_registration</a>(const char *enum_name, enum_items &amp;&amp;items)</td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#addb614cfff2cdb5220c587cbfd7b08fb">items_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a7dac8366c11fbcad2f49d85fe8fc4fbe">name_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a8797d90a1e9ec2163cb8192a962d06dd">next_</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">protected</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afbf71e4018b8f6bf7ff11e50f3aeed14">registration_list</a></td><td class="entry"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td><td class="entry"><span class="mlabel">protected</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classfbgemm__gpu_1_1enum__registration.html b/classfbgemm__gpu_1_1enum__registration.html
new file mode 100644
index 000000000..356fe18e1
--- /dev/null
+++ b/classfbgemm__gpu_1_1enum__registration.html
@@ -0,0 +1,251 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: enum_registration&lt; T &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classfbgemm__gpu_1_1enum__registration-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">enum_registration&lt; T &gt; Class Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;enum_utils.h&gt;</code></p>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="afa13a8542c6dde450214a387cacf3a9b" name="afa13a8542c6dde450214a387cacf3a9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afa13a8542c6dde450214a387cacf3a9b">&#9670;&#160;</a></span>enum_registration()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a> *</td>          <td class="paramname"><span class="paramname"><em>enum_name</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a5fdc84ce2202ea07eb2e865847bd8f34">enum_items</a> &amp;&amp;</td>          <td class="paramname"><span class="paramname"><em>items</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a84cad106fb24ea59687f6708d197cc64" name="a84cad106fb24ea59687f6708d197cc64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84cad106fb24ea59687f6708d197cc64">&#9670;&#160;</a></span>enum_query()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="namespacefbgemm__gpu.html#adbdc3251cbd2e995dfa31ffdf2c2df8e">enum_result</a> enum_query </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="addb614cfff2cdb5220c587cbfd7b08fb" name="addb614cfff2cdb5220c587cbfd7b08fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#addb614cfff2cdb5220c587cbfd7b08fb">&#9670;&#160;</a></span>items_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt;<a class="el" href="namespacefbgemm__gpu.html#aef71de4120929d2410f5d766948f8eaf">enum_item</a>&gt; items_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7dac8366c11fbcad2f49d85fe8fc4fbe" name="a7dac8366c11fbcad2f49d85fe8fc4fbe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7dac8366c11fbcad2f49d85fe8fc4fbe">&#9670;&#160;</a></span>name_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">char</a>* name_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8797d90a1e9ec2163cb8192a962d06dd" name="a8797d90a1e9ec2163cb8192a962d06dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8797d90a1e9ec2163cb8192a962d06dd">&#9670;&#160;</a></span>next_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;* next_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbf71e4018b8f6bf7ff11e50f3aeed14" name="afbf71e4018b8f6bf7ff11e50f3aeed14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbf71e4018b8f6bf7ff11e50f3aeed14">&#9670;&#160;</a></span>registration_list</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a>&lt;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>&gt;* registration_list</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span><span class="mlabel">protected</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="enum__utils_8h.html">enum_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classssd_1_1_embedding_rocks_d_b-members.html b/classssd_1_1_embedding_rocks_d_b-members.html
new file mode 100644
index 000000000..02b3795b3
--- /dev/null
+++ b/classssd_1_1_embedding_rocks_d_b-members.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacessd.html">ssd</a></li><li class="navelem"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">EmbeddingRocksDB Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a043cdfc194924194e381a986c229569e">compact</a>()</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a92b07dcd61720ad3a72dbbad89c26514">compact_if_necessary</a>(int64_t timestep)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a703b26ce10b84fa35ea496114f1ebbb5">EmbeddingRocksDB</a>(std::string path, int64_t num_shards, int64_t num_threads, int64_t memtable_flush_period, int64_t memtable_flush_offset, int64_t l0_files_per_compact, int64_t max_D, int64_t rate_limit_mbps, int64_t size_ratio, int64_t compaction_trigger, int64_t write_buffer_size, int64_t max_write_buffer_num, float uniform_init_lower, float uniform_init_upper, int64_t row_storage_bitwidth=32)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#adac116554b543b7c4228c018a85882f5">flush</a>()</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a5e5bb9c575c52445a77bd0c39afc50bb">flush_if_necessary</a>(int64_t timestep)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a9a5671e5de645f247452456ffdfa81a9">get</a>(Tensor indices, Tensor weights, Tensor count)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#ac8082829ce873543f6388ddbd16362e8">get_cuda</a>(Tensor indices, Tensor weights, Tensor count)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1951c5647b663fc955ee1076f68190ec">set</a>(Tensor indices, Tensor weights, Tensor count)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1b6c5343b7eafae73491f0749f1151a9">set_cuda</a>(Tensor indices, Tensor weights, Tensor count, int64_t timestep)</td><td class="entry"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classssd_1_1_embedding_rocks_d_b.html b/classssd_1_1_embedding_rocks_d_b.html
new file mode 100644
index 000000000..6bc271ef2
--- /dev/null
+++ b/classssd_1_1_embedding_rocks_d_b.html
@@ -0,0 +1,437 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: EmbeddingRocksDB Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacessd.html">ssd</a></li><li class="navelem"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classssd_1_1_embedding_rocks_d_b-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">EmbeddingRocksDB Class Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;ssd_table_batched_embeddings.h&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for EmbeddingRocksDB:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classssd_1_1_embedding_rocks_d_b.png" alt=""/>
+ </div></div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a703b26ce10b84fa35ea496114f1ebbb5" name="a703b26ce10b84fa35ea496114f1ebbb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a703b26ce10b84fa35ea496114f1ebbb5">&#9670;&#160;</a></span>EmbeddingRocksDB()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a> </td>
+          <td>(</td>
+          <td class="paramtype">std::string</td>          <td class="paramname"><span class="paramname"><em>path</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_shards</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_threads</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>memtable_flush_period</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>memtable_flush_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>l0_files_per_compact</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>rate_limit_mbps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>size_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>compaction_trigger</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>write_buffer_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_write_buffer_num</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>uniform_init_lower</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>uniform_init_upper</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_storage_bitwidth</em><span class="paramdefsep"> = </span><span class="paramdefval">32</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a043cdfc194924194e381a986c229569e" name="a043cdfc194924194e381a986c229569e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a043cdfc194924194e381a986c229569e">&#9670;&#160;</a></span>compact()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void compact </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a92b07dcd61720ad3a72dbbad89c26514" name="a92b07dcd61720ad3a72dbbad89c26514"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a92b07dcd61720ad3a72dbbad89c26514">&#9670;&#160;</a></span>compact_if_necessary()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void compact_if_necessary </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>timestep</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adac116554b543b7c4228c018a85882f5" name="adac116554b543b7c4228c018a85882f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adac116554b543b7c4228c018a85882f5">&#9670;&#160;</a></span>flush()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void flush </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e5bb9c575c52445a77bd0c39afc50bb" name="a5e5bb9c575c52445a77bd0c39afc50bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e5bb9c575c52445a77bd0c39afc50bb">&#9670;&#160;</a></span>flush_if_necessary()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void flush_if_necessary </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>timestep</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a5671e5de645f247452456ffdfa81a9" name="a9a5671e5de645f247452456ffdfa81a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a5671e5de645f247452456ffdfa81a9">&#9670;&#160;</a></span>get()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void get </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac8082829ce873543f6388ddbd16362e8" name="ac8082829ce873543f6388ddbd16362e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8082829ce873543f6388ddbd16362e8">&#9670;&#160;</a></span>get_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void get_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1951c5647b663fc955ee1076f68190ec" name="a1951c5647b663fc955ee1076f68190ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1951c5647b663fc955ee1076f68190ec">&#9670;&#160;</a></span>set()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void set </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1b6c5343b7eafae73491f0749f1151a9" name="a1b6c5343b7eafae73491f0749f1151a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b6c5343b7eafae73491f0749f1151a9">&#9670;&#160;</a></span>set_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">void set_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>timestep</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache/<a class="el" href="ssd__table__batched__embeddings_8h.html">ssd_table_batched_embeddings.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classssd_1_1_embedding_rocks_d_b.png b/classssd_1_1_embedding_rocks_d_b.png
new file mode 100644
index 000000000..b2d676a15
Binary files /dev/null and b/classssd_1_1_embedding_rocks_d_b.png differ
diff --git a/classssd_1_1_initializer-members.html b/classssd_1_1_initializer-members.html
new file mode 100644
index 000000000..2434d2cd6
--- /dev/null
+++ b/classssd_1_1_initializer-members.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacessd.html">ssd</a></li><li class="navelem"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Initializer Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classssd_1_1_initializer.html">Initializer</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#a794bafa095540403ada855b817d1d367">consumer_queue_</a></td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#af5e246dd12f1a6c4e06ab77a41bd0590">Initializer</a>(uint64_t random_seed, int64_t max_D, float uniform_init_lower, float uniform_init_upper, int64_t row_storage_bitwidth=32)</td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#a94a9376947a96732a7b6de4ca94e7fdd">producer_</a></td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#a04da45f241a7f5da5ebb52930ed756bc">producer_queue_</a></td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#a3f2b57f32ee510408e83a7c26716d7a5">row_storage_</a></td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#ae1a1eeaa4661c67f8e75985160abf62a">stop_</a></td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classssd_1_1_initializer.html#a7a69aed99981539d9a2c0ee85459b4b6">~Initializer</a>()</td><td class="entry"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/classssd_1_1_initializer.html b/classssd_1_1_initializer.html
new file mode 100644
index 000000000..15af1c82f
--- /dev/null
+++ b/classssd_1_1_initializer.html
@@ -0,0 +1,235 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Initializer Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacessd.html">ssd</a></li><li class="navelem"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="classssd_1_1_initializer-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Initializer Class Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;ssd_table_batched_embeddings.h&gt;</code></p>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af5e246dd12f1a6c4e06ab77a41bd0590" name="af5e246dd12f1a6c4e06ab77a41bd0590"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5e246dd12f1a6c4e06ab77a41bd0590">&#9670;&#160;</a></span>Initializer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classssd_1_1_initializer.html">Initializer</a> </td>
+          <td>(</td>
+          <td class="paramtype">uint64_t</td>          <td class="paramname"><span class="paramname"><em>random_seed</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>uniform_init_lower</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>uniform_init_upper</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_storage_bitwidth</em><span class="paramdefsep"> = </span><span class="paramdefval">32</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7a69aed99981539d9a2c0ee85459b4b6" name="a7a69aed99981539d9a2c0ee85459b4b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7a69aed99981539d9a2c0ee85459b4b6">&#9670;&#160;</a></span>~Initializer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">~<a class="el" href="classssd_1_1_initializer.html">Initializer</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a794bafa095540403ada855b817d1d367" name="a794bafa095540403ada855b817d1d367"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a794bafa095540403ada855b817d1d367">&#9670;&#160;</a></span>consumer_queue_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">folly::USPSCQueue&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a>&gt; consumer_queue_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94a9376947a96732a7b6de4ca94e7fdd" name="a94a9376947a96732a7b6de4ca94e7fdd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94a9376947a96732a7b6de4ca94e7fdd">&#9670;&#160;</a></span>producer_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::unique_ptr&lt;std::thread&gt; producer_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04da45f241a7f5da5ebb52930ed756bc" name="a04da45f241a7f5da5ebb52930ed756bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04da45f241a7f5da5ebb52930ed756bc">&#9670;&#160;</a></span>producer_queue_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">folly::USPSCQueue&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a>&gt; producer_queue_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f2b57f32ee510408e83a7c26716d7a5" name="a3f2b57f32ee510408e83a7c26716d7a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f2b57f32ee510408e83a7c26716d7a5">&#9670;&#160;</a></span>row_storage_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> row_storage_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae1a1eeaa4661c67f8e75985160abf62a" name="ae1a1eeaa4661c67f8e75985160abf62a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1a1eeaa4661c67f8e75985160abf62a">&#9670;&#160;</a></span>stop_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::atomic&lt;bool&gt; stop_ {<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a>}</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache/<a class="el" href="ssd__table__batched__embeddings_8h.html">ssd_table_batched_embeddings.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/clipboard.js b/clipboard.js
new file mode 100644
index 000000000..42c1fb0e0
--- /dev/null
+++ b/clipboard.js
@@ -0,0 +1,61 @@
+/**
+
+The code below is based on the Doxygen Awesome project, see
+https://github.com/jothepro/doxygen-awesome-css
+
+MIT License
+
+Copyright (c) 2021 - 2022 jothepro
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+*/
+
+let clipboard_title = "Copy to clipboard"
+let clipboard_icon = `<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24" width="24" height="24"><path d="M0 0h24v24H0V0z" fill="none"/><path d="M16 1H4c-1.1 0-2 .9-2 2v14h2V3h12V1zm3 4H8c-1.1 0-2 .9-2 2v14c0 1.1.9 2 2 2h11c1.1 0 2-.9 2-2V7c0-1.1-.9-2-2-2zm0 16H8V7h11v14z"/></svg>`
+let clipboard_successIcon = `<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24" width="24" height="24"><path d="M0 0h24v24H0V0z" fill="none"/><path d="M9 16.17L4.83 12l-1.42 1.41L9 19 21 7l-1.41-1.41L9 16.17z"/></svg>`
+let clipboard_successDuration = 1000
+
+$(function() {
+  if(navigator.clipboard) {
+    const fragments = document.getElementsByClassName("fragment")
+    for(const fragment of fragments) {
+      const clipboard_div = document.createElement("div")
+      clipboard_div.classList.add("clipboard")
+      clipboard_div.innerHTML = clipboard_icon
+      clipboard_div.title = clipboard_title
+      $(clipboard_div).click(function() {
+        const content = this.parentNode.cloneNode(true)
+        // filter out line number and folded fragments from file listings
+        content.querySelectorAll(".lineno, .ttc, .foldclosed").forEach((node) => { node.remove() })
+        let text = content.textContent
+        // remove trailing newlines and trailing spaces from empty lines
+        text = text.replace(/^\s*\n/gm,'\n').replace(/\n*$/,'')
+        navigator.clipboard.writeText(text);
+        this.classList.add("success")
+        this.innerHTML = clipboard_successIcon
+        window.setTimeout(() => { // switch back to normal icon after timeout
+            this.classList.remove("success")
+            this.innerHTML = clipboard_icon
+        }, clipboard_successDuration);
+      })
+      fragment.insertBefore(clipboard_div, fragment.firstChild)
+    }
+  }
+})
diff --git a/cookie.js b/cookie.js
new file mode 100644
index 000000000..53ad21d98
--- /dev/null
+++ b/cookie.js
@@ -0,0 +1,58 @@
+/*!
+ Cookie helper functions
+ Copyright (c) 2023 Dimitri van Heesch
+ Released under MIT license.
+*/
+let Cookie = {
+  cookie_namespace: 'doxygen_',
+
+  readSetting(cookie,defVal) {
+    if (window.chrome) {
+      const val = localStorage.getItem(this.cookie_namespace+cookie) ||
+                  sessionStorage.getItem(this.cookie_namespace+cookie);
+      if (val) return val;
+    } else {
+      let myCookie = this.cookie_namespace+cookie+"=";
+      if (document.cookie) {
+        const index = document.cookie.indexOf(myCookie);
+        if (index != -1) {
+          const valStart = index + myCookie.length;
+          let valEnd = document.cookie.indexOf(";", valStart);
+          if (valEnd == -1) {
+            valEnd = document.cookie.length;
+          }
+          return document.cookie.substring(valStart, valEnd);
+        }
+      }
+    }
+    return defVal;
+  },
+
+  writeSetting(cookie,val,days=10*365) { // default days='forever', 0=session cookie, -1=delete
+    if (window.chrome) {
+      if (days==0) {
+        sessionStorage.setItem(this.cookie_namespace+cookie,val);
+      } else {
+        localStorage.setItem(this.cookie_namespace+cookie,val);
+      }
+    } else {
+      let date = new Date();
+      date.setTime(date.getTime()+(days*24*60*60*1000));
+      const expiration = days!=0 ? "expires="+date.toGMTString()+";" : "";
+      document.cookie = this.cookie_namespace + cookie + "=" +
+                        val + "; SameSite=Lax;" + expiration + "path=/";
+    }
+  },
+
+  eraseSetting(cookie) {
+    if (window.chrome) {
+      if (localStorage.getItem(this.cookie_namespace+cookie)) {
+        localStorage.removeItem(this.cookie_namespace+cookie);
+      } else if (sessionStorage.getItem(this.cookie_namespace+cookie)) {
+        sessionStorage.removeItem(this.cookie_namespace+cookie);
+      }
+    } else {
+      this.writeSetting(cookie,'',-1);
+    }
+  },
+}
diff --git a/cpp-api/embedding_ops.html b/cpp-api/embedding_ops.html
index 7d71396ca..026c289ae 100644
--- a/cpp-api/embedding_ops.html
+++ b/cpp-api/embedding_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="prev" title="Layout Transformation Operators" href="layout_transform_ops.html" />
@@ -251,18 +253,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -350,61 +353,141 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="embedding-operators">
-<h1>Embedding Operators<a class="headerlink" href="#embedding-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Embedding Operators<a class="headerlink" href="#embedding-operators" title="Permalink to this heading">¶</a></h1>
 <section id="cuda-operators">
-<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this heading">¶</a></h2>
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv347split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv247split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_adagrad_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1gaa0988eef90f8662e8886912ed3784c1d"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_adagrad_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv344split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv244split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_adam_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga639ddbb31e9d565bfcfa4766b14c9ef6"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_adam_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta1</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta2</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv362split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv262split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_approx_rowwise_adagrad_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1gac847393d811e7b22ace39ff91eb91e27"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_approx_rowwise_adagrad_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv375split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv275split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_t.int64_t.double.int64_t.int64_t.int64_t.double.double.int64_t.int64_t.double.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1gabf7587752fb66934350cec59cd7adda9"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">counter_halflife</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">adjustment_iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">adjustment_ub</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">grad_sum_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_counter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">tail_id_threshold</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_tail_id_thresh_ratio</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">regularization_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_norm_coefficient</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lower_bound</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv380split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv280split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga0a7191adb6807417bfaab85ccb6fac50"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv350split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv250split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_approx_sgd_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1gabcff81381942478b57805e5deb7725fb"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_approx_sgd_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv344split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv244split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_lamb_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga1c377dd2500d38974bbfe0e69243e084"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_lamb_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta1</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta2</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv348split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv248split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_lars_sgd_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_lars_sgd_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eta</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv344split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv244split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_none_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.int64_t.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga855a30b389de5a61097f44cff795b6c3"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_none_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_unique_indices</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv360split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv260split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_partial_rowwise_adam_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga06feb6c425fba7c460dc0da550d4e4e6"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_partial_rowwise_adam_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta1</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta2</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv360split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv260split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_partial_rowwise_lamb_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga37b9129c928c9cb39459198f36f11c8d"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_partial_rowwise_lamb_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum2_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta1</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">beta2</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv355split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv255split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_rowwise_adagrad_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1gacc3d997b675b747985dd37193cac4edd"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_rowwise_adagrad_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_norm</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv368split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv268split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_t.int64_t.double.int64_t.int64_t.int64_t.double.double.int64_t.int64_t.double.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga917cf0c2c4487425408808529ed05e68"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">prev_iter_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_counter_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">counter_halflife</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">adjustment_iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">adjustment_ub</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">grad_sum_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_counter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">tail_id_threshold</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_tail_id_thresh_ratio</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">regularization_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_norm_coefficient</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lower_bound</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv373split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv273split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga2e19021f546871ef6f1e57fca7cf5e13"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay_mode</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv364split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv264split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_rowwise_weighted_adagrad_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.Tensor.Tensor.Tensor.Tensor.double.double.double.int64_t.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga54a40e0e64a528731d45bca998727a1c"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_rowwise_weighted_adagrad_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">eps</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weight_decay</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">iter</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">
+<span id="_CPPv343split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="_CPPv243split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"></span><span id="split_embedding_codegen_lookup_sgd_function__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.TensorCR.int64_tC.int64_tC.TensorCR.int64_tC.TensorCR.TensorCR.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.TensorCR.bC.doubleC.bC.double.int64_tC.c10::optional:Tensor:CR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC.int64_tC.int64_tC.bC.bC.bC"></span><span class="target" id="group__embedding-cuda_1ga66c2eb0df8e5dab40f0d862ebe43bd34"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">split_embedding_codegen_lookup_sgd_function</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">placeholder_autograd_tensor</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_D</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_hash_size_bits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">feature_requires_grad</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gradient_clipping</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_gradient</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">learning_rate</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">static_cast</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">SparseType</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">FP32</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_offsets</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_output_offsets_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">vbe_B_offsets_rank_per_feature</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">(</span></span><span class="p"><span class="pre">)</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B_feature_rank</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">vbe_output_size</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="o"><span class="pre">-</span></span><span class="m"><span class="pre">1</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_experimental</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_uniq_cache_locations_bwd</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">use_homogeneous_placements</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="k"><span class="pre">false</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb" title="Permalink to this definition">¶</a><br /></dt>
+<dd></dd></dl>
+
 <dl class="cpp function">
-<dt id="_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t">
-<span id="_CPPv325bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"></span><span id="_CPPv225bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"></span><span id="bounds_check_indices_cuda__TensorR.TensorR.TensorR.int64_t.TensorR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC"></span><span class="target" id="group__embedding-cuda_1gad1c20ea2ace30c269811890919ebdb6e"></span>void <code class="sig-name descname">bounds_check_indices_cuda</code><span class="sig-paren">(</span>Tensor &amp;<em>rows_per_table</em>, Tensor &amp;<em>indices</em>, Tensor &amp;<em>offsets</em>, int64_t <em>bounds_check_mode</em>, Tensor &amp;<em>warning</em>, <em class="property">const</em> c10::optional&lt;Tensor&gt; &amp;<em>weights</em>, <em class="property">const</em> c10::optional&lt;Tensor&gt; &amp;<em>B_ofsets</em>, <em class="property">const</em> int64_t <em>max_B</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t">
+<span id="_CPPv325bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"></span><span id="_CPPv225bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"></span><span id="bounds_check_indices_cuda__TensorR.TensorR.TensorR.int64_t.TensorR.c10::optional:Tensor:CR.c10::optional:Tensor:CR.int64_tC"></span><span class="target" id="group__embedding-cuda_1gad1c20ea2ace30c269811890919ebdb6e"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">bounds_check_indices_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">rows_per_table</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bounds_check_mode</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">warning</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">B_ofsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_B</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE">
-<span id="_CPPv348int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="_CPPv248int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="int_nbit_split_embedding_codegen_lookup_function__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:"></span><span class="target" id="group__embedding-cuda_1ga0749f1c6540189dd47b32a56858f82fb"></span>Tensor <code class="sig-name descname">int_nbit_split_embedding_codegen_lookup_function</code><span class="sig-paren">(</span>Tensor <em>dev_weights</em>, Tensor <em>uvm_weights</em>, Tensor <em>weights_placements</em>, Tensor <em>weights_offsets</em>, Tensor <em>weights_tys</em>, Tensor <em>D_offsets</em>, int64_t <em>total_D</em>, int64_t <em>max_int2_D</em>, int64_t <em>max_int4_D</em>, int64_t <em>max_int8_D</em>, int64_t <em>max_float16_D</em>, int64_t <em>max_float32_D</em>, Tensor <em>indices</em>, Tensor <em>offsets</em>, int64_t <em>pooling_mode</em>, c10::optional&lt;Tensor&gt; <em>indice_weights</em>, int64_t <em>output_dtype</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_weights</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_locations</em>, c10::optional&lt;int64_t&gt; <em>row_alignment</em>, c10::optional&lt;int64_t&gt; <em>max_float8_D</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bits</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bias</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE">
+<span id="_CPPv348int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="_CPPv248int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="int_nbit_split_embedding_codegen_lookup_function__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:"></span><span class="target" id="group__embedding-cuda_1ga0749f1c6540189dd47b32a56858f82fb"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">int_nbit_split_embedding_codegen_lookup_function</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int2_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int4_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int8_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float16_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float32_D</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float8_D</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bits</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bias</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">
-<span id="_CPPv360int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="_CPPv260int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="int_nbit_split_embedding_uvm_caching_codegen_lookup_function__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:Tensor:"></span><span class="target" id="group__embedding-cuda_1gabbe880100f1036a979f3a8d8755447d0"></span>Tensor <code class="sig-name descname">int_nbit_split_embedding_uvm_caching_codegen_lookup_function</code><span class="sig-paren">(</span>Tensor <em>dev_weights</em>, Tensor <em>uvm_weights</em>, Tensor <em>weights_placements</em>, Tensor <em>weights_offsets</em>, Tensor <em>weights_tys</em>, Tensor <em>D_offsets</em>, int64_t <em>total_D</em>, int64_t <em>max_int2_D</em>, int64_t <em>max_int4_D</em>, int64_t <em>max_int8_D</em>, int64_t <em>max_float16_D</em>, int64_t <em>max_float32_D</em>, Tensor <em>indices</em>, Tensor <em>offsets</em>, int64_t <em>pooling_mode</em>, c10::optional&lt;Tensor&gt; <em>indice_weights</em>, int64_t <em>output_dtype</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_weights</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_locations</em>, c10::optional&lt;int64_t&gt; <em>row_alignment</em>, c10::optional&lt;int64_t&gt; <em>max_float8_D</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bits</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bias</em>, c10::optional&lt;Tensor&gt; <em>cache_hash_size_cumsum</em>, c10::optional&lt;int64_t&gt; <em>total_cache_hash_size</em>, c10::optional&lt;Tensor&gt; <em>cache_index_table_map</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_state</em>, c10::optional&lt;Tensor&gt; <em>lxu_state</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">
+<span id="_CPPv360int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="_CPPv260int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="int_nbit_split_embedding_uvm_caching_codegen_lookup_function__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:Tensor:"></span><span class="target" id="group__embedding-cuda_1gabbe880100f1036a979f3a8d8755447d0"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">int_nbit_split_embedding_uvm_caching_codegen_lookup_function</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int2_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int4_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int8_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float16_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float32_D</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float8_D</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bits</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bias</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_state</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Simlar to int_nbit_split_embedding_codegen_lookup_function, but it does UVM_CACHING lookup. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor">
-<span id="_CPPv326pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv226pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_lookup_cuda__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cuda_1ga1adb0a98306b7d6f839b5fbcaaa44ec7"></span>Tensor <code class="sig-name descname">pruned_hashmap_lookup_cuda</code><span class="sig-paren">(</span>Tensor <em>indices</em>, Tensor <em>offsets</em>, Tensor <em>hash_table</em>, Tensor <em>hash_table_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor">
+<span id="_CPPv326pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv226pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_lookup_cuda__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cuda_1ga1adb0a98306b7d6f839b5fbcaaa44ec7"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">pruned_hashmap_lookup_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor">
-<span id="_CPPv324pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv224pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_array_lookup_cuda__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cuda_1gaea1d3ae26d1e893ccf08f8b55b3d6eff"></span>Tensor <code class="sig-name descname">pruned_array_lookup_cuda</code><span class="sig-paren">(</span>Tensor <em>indices</em>, Tensor <em>offsets</em>, Tensor <em>index_remappings</em>, Tensor <em>index_remappings_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor">
+<span id="_CPPv324pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv224pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_array_lookup_cuda__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cuda_1gaea1d3ae26d1e893ccf08f8b55b3d6eff"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">pruned_array_lookup_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">index_remappings</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">index_remappings_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
 <section id="cpu-operators">
-<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE">
-<span id="_CPPv352int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="_CPPv252int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="int_nbit_split_embedding_codegen_lookup_function_cpu__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:"></span><span class="target" id="group__embedding-cpu_1gac115303550aa9af7c170baef63bcdb00"></span>Tensor <code class="sig-name descname">int_nbit_split_embedding_codegen_lookup_function_cpu</code><span class="sig-paren">(</span>Tensor <em>dev_weights</em>, Tensor <em>uvm_weights</em>, Tensor <em>weights_placements</em>, Tensor <em>weights_offsets</em>, Tensor <em>weights_tys</em>, Tensor <em>D_offsets</em>, int64_t <em>total_D</em>, int64_t <em>max_int2_D</em>, int64_t <em>max_int4_D</em>, int64_t <em>max_int8_D</em>, int64_t <em>max_float16_D</em>, int64_t <em>max_float32_D</em>, Tensor <em>indices</em>, Tensor <em>offsets</em>, int64_t <em>pooling_mode</em>, c10::optional&lt;Tensor&gt; <em>indice_weights</em>, int64_t <em>output_dtype</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_weights</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_locations</em>, c10::optional&lt;int64_t&gt; <em>row_alignment</em>, c10::optional&lt;int64_t&gt; <em>max_float8_D</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bits</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bias</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE">
+<span id="_CPPv352int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="_CPPv252int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"></span><span id="int_nbit_split_embedding_codegen_lookup_function_cpu__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:"></span><span class="target" id="group__embedding-cpu_1gac115303550aa9af7c170baef63bcdb00"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">int_nbit_split_embedding_codegen_lookup_function_cpu</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int2_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int4_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int8_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float16_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float32_D</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float8_D</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bits</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bias</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">
-<span id="_CPPv364int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="_CPPv264int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:Tensor:"></span><span class="target" id="group__embedding-cpu_1gaf5c83f0c03200546398764261403749d"></span>Tensor <code class="sig-name descname">int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu</code><span class="sig-paren">(</span>Tensor <em>dev_weights</em>, Tensor <em>uvm_weights</em>, Tensor <em>weights_placements</em>, Tensor <em>weights_offsets</em>, Tensor <em>weights_tys</em>, Tensor <em>D_offsets</em>, int64_t <em>total_D</em>, int64_t <em>max_int2_D</em>, int64_t <em>max_int4_D</em>, int64_t <em>max_int8_D</em>, int64_t <em>max_float16_D</em>, int64_t <em>max_float32_D</em>, Tensor <em>indices</em>, Tensor <em>offsets</em>, int64_t <em>pooling_mode</em>, c10::optional&lt;Tensor&gt; <em>indice_weights</em>, int64_t <em>output_dtype</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_weights</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_locations</em>, c10::optional&lt;int64_t&gt; <em>row_alignment</em>, c10::optional&lt;int64_t&gt; <em>max_float8_D</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bits</em>, c10::optional&lt;int64_t&gt; <em>fp8_exponent_bias</em>, c10::optional&lt;Tensor&gt; <em>cache_hash_size_cumsum</em>, c10::optional&lt;int64_t&gt; <em>total_cache_hash_size</em>, c10::optional&lt;Tensor&gt; <em>cache_index_table_map</em>, c10::optional&lt;Tensor&gt; <em>lxu_cache_state</em>, c10::optional&lt;Tensor&gt; <em>lxu_state</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">
+<span id="_CPPv364int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="_CPPv264int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"></span><span id="int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu__Tensor.Tensor.Tensor.Tensor.Tensor.Tensor.int64_t.int64_t.int64_t.int64_t.int64_t.int64_t.Tensor.Tensor.int64_t.c10::optional:Tensor:.int64_t.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:int64_t:.c10::optional:Tensor:.c10::optional:Tensor:.c10::optional:Tensor:"></span><span class="target" id="group__embedding-cpu_1gaf5c83f0c03200546398764261403749d"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int2_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int4_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_int8_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float16_D</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float32_D</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pooling_mode</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indice_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_float8_D</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bits</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">fp8_exponent_bias</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_state</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor">
-<span id="_CPPv336pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv236pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_insert_unweighted_cpu__Tensor.Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga5b5d3d94a399c14899a4410d1f5e7dad"></span>void <code class="sig-name descname">pruned_hashmap_insert_unweighted_cpu</code><span class="sig-paren">(</span>Tensor <em>indices</em>, Tensor <em>dense_indices</em>, Tensor <em>offsets</em>, Tensor <em>hash_table</em>, Tensor <em>hash_table_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor">
+<span id="_CPPv336pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv236pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_insert_unweighted_cpu__Tensor.Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga5b5d3d94a399c14899a4410d1f5e7dad"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">pruned_hashmap_insert_unweighted_cpu</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dense_indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor">
-<span id="_CPPv336pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv236pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_lookup_unweighted_cpu__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga2c64467f516cc9caf72cb94e9913b211"></span>Tensor <code class="sig-name descname">pruned_hashmap_lookup_unweighted_cpu</code><span class="sig-paren">(</span>Tensor <em>indices</em>, Tensor <em>offsets</em>, Tensor <em>hash_table</em>, Tensor <em>hash_table_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor">
+<span id="_CPPv336pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv236pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_hashmap_lookup_unweighted_cpu__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga2c64467f516cc9caf72cb94e9913b211"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">pruned_hashmap_lookup_unweighted_cpu</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_table_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor">
-<span id="_CPPv323pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv223pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_array_lookup_cpu__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga50d9da3c5bc1fe8b9cabfbda212c2ea5"></span>Tensor <code class="sig-name descname">pruned_array_lookup_cpu</code><span class="sig-paren">(</span>Tensor <em>indices</em>, Tensor <em>offsets</em>, Tensor <em>index_remappings</em>, Tensor <em>index_remappings_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor">
+<span id="_CPPv323pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="_CPPv223pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"></span><span id="pruned_array_lookup_cpu__Tensor.Tensor.Tensor.Tensor"></span><span class="target" id="group__embedding-cpu_1ga50d9da3c5bc1fe8b9cabfbda212c2ea5"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">pruned_array_lookup_cpu</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">index_remappings</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">index_remappings_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -471,11 +554,9 @@ <h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/input_combine.html b/cpp-api/input_combine.html
index b222cb7d6..538b028cd 100644
--- a/cpp-api/input_combine.html
+++ b/cpp-api/input_combine.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Layout Transformation Operators" href="layout_transform_ops.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,15 +354,15 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="combine-input-operators">
-<h1>Combine Input Operators<a class="headerlink" href="#combine-input-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Combine Input Operators<a class="headerlink" href="#combine-input-operators" title="Permalink to this heading">¶</a></h1>
 <dl class="cpp function">
-<dt id="_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE">
-<span id="_CPPv321tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"></span><span id="_CPPv221tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"></span><span id="tbe_input_combine_cpu__std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.at::TensorCR"></span><span class="target" id="group__input-combine_1ga4f8f3f8b825c9d7639c1e45e8dc8b689"></span>std::tuple&lt;at::Tensor, at::Tensor, at::Tensor&gt; <code class="sig-name descname">tbe_input_combine_cpu</code><span class="sig-paren">(</span><em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>indices_list</em>, <em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>offsets_list</em>, <em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>per_sample_weights</em>, <em class="property">const</em> at::Tensor &amp;<em>include_last_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE">
+<span id="_CPPv321tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"></span><span id="_CPPv221tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"></span><span id="tbe_input_combine_cpu__std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.at::TensorCR"></span><span class="target" id="group__input-combine_1ga4f8f3f8b825c9d7639c1e45e8dc8b689"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">tbe_input_combine_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">per_sample_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">include_last_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t">
-<span id="_CPPv335padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"></span><span id="_CPPv235padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"></span><span id="padding_fused_tbe_input_combine_cpu__std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.at::TensorCR.int64_t"></span><span class="target" id="group__input-combine_1ga9ab60fbe75053c2f31f7d3f16dfa476f"></span>std::tuple&lt;at::Tensor, at::Tensor, at::Tensor&gt; <code class="sig-name descname">padding_fused_tbe_input_combine_cpu</code><span class="sig-paren">(</span><em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>indices_list</em>, <em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>offsets_list</em>, <em class="property">const</em> std::vector&lt;at::Tensor&gt; &amp;<em>per_sample_weights</em>, <em class="property">const</em> at::Tensor &amp;<em>include_last_offsets</em>, int64_t <em>batch_size</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t">
+<span id="_CPPv335padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"></span><span id="_CPPv235padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"></span><span id="padding_fused_tbe_input_combine_cpu__std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.std::vector:at::Tensor:CR.at::TensorCR.int64_t"></span><span class="target" id="group__input-combine_1ga9ab60fbe75053c2f31f7d3f16dfa476f"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">padding_fused_tbe_input_combine_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">indices_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">per_sample_weights</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">include_last_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">batch_size</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -423,11 +426,9 @@ <h1>Combine Input Operators<a class="headerlink" href="#combine-input-operators"
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/jagged_tensor_ops.html b/cpp-api/jagged_tensor_ops.html
index 52262b7d5..0f7279ea5 100644
--- a/cpp-api/jagged_tensor_ops.html
+++ b/cpp-api/jagged_tensor_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="CUDA Memory Operators" href="memory_utils.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,67 +354,67 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="jagged-tensor-operators">
-<h1>Jagged Tensor Operators<a class="headerlink" href="#jagged-tensor-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Jagged Tensor Operators<a class="headerlink" href="#jagged-tensor-operators" title="Permalink to this heading">¶</a></h1>
 <p>Jagged Tensor solves the issue when rows in dimension are of
 different length. This often occurs in sparse feature inputs
 in recommender systems, as well as natural language processing
 system batched inputs.</p>
 <section id="cuda-operators">
-<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd">
-<span id="_CPPv330jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"></span><span id="_CPPv230jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"></span><span id="jagged_to_padded_dense_forward__TensorCR.std::vector:Tensor:CR.c10::SymIntArrayRef.doubleC"></span><span class="target" id="group__jagged-tensor-ops-cuda_1gaffad7e38f6faf5f8365784fbf82a26f5"></span>at::Tensor <code class="sig-name descname">jagged_to_padded_dense_forward</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>offsets</em>, c10::SymIntArrayRef <em>max_lengths</em>, <em class="property">const</em> double <em>padding_value</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd">
+<span id="_CPPv330jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"></span><span id="_CPPv230jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"></span><span id="jagged_to_padded_dense_forward__TensorCR.std::vector:Tensor:CR.c10::SymIntArrayRef.doubleC"></span><span class="target" id="group__jagged-tensor-ops-cuda_1gaffad7e38f6faf5f8365784fbf82a26f5"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_to_padded_dense_forward</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">SymIntArrayRef</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_lengths</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">padding_value</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
-<span id="_CPPv347jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv247jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add_jagged_output_cuda__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cuda_1gad34ac20d2c9be5a6489c8e8befff7938"></span>std::tuple&lt;Tensor, std::vector&lt;Tensor&gt;&gt; <code class="sig-name descname">jagged_dense_elementwise_add_jagged_output_cuda</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>x_values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>x_offsets</em>, <em class="property">const</em> Tensor &amp;<em>y</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
+<span id="_CPPv347jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv247jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add_jagged_output_cuda__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cuda_1gad34ac20d2c9be5a6489c8e8befff7938"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_dense_elementwise_add_jagged_output_cuda</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">y</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>output = x + y where x is jagged, y is dense, and output is jagged </p>
 </dd></dl>
 
 </section>
 <section id="cpu-operators">
-<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd">
-<span id="_CPPv322jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"></span><span id="_CPPv222jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"></span><span id="jagged_to_padded_dense__TensorCR.std::vector:Tensor:CR.c10::SymIntArrayRefC.doubleC"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga6d19e2c055144e4fe59b06999be34670"></span>Tensor <code class="sig-name descname">jagged_to_padded_dense</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>offsets</em>, <em class="property">const</em> c10::SymIntArrayRef <em>max_lengths</em>, <em class="property">const</em> double <em>padding_value</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd">
+<span id="_CPPv322jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"></span><span id="_CPPv222jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"></span><span id="jagged_to_padded_dense__TensorCR.std::vector:Tensor:CR.c10::SymIntArrayRefC.doubleC"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga6d19e2c055144e4fe59b06999be34670"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_to_padded_dense</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">SymIntArrayRef</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_lengths</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">padding_value</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
-<span id="_CPPv328jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv228jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gaa797caaa08c70857433ae987d9cf30d7"></span>Tensor <code class="sig-name descname">jagged_dense_elementwise_add</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>x_values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>x_offsets</em>, <em class="property">const</em> Tensor &amp;<em>y</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
+<span id="_CPPv328jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv228jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gaa797caaa08c70857433ae987d9cf30d7"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_dense_elementwise_add</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">y</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Output = x + y where x is jagged, y and output are dense </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
-<span id="_CPPv328jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv228jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_mul__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga5521ad46f5bab0d77c8bb036742f455d"></span>std::tuple&lt;Tensor, std::vector&lt;Tensor&gt;&gt; <code class="sig-name descname">jagged_dense_elementwise_mul</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>x_values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>x_offsets</em>, <em class="property">const</em> Tensor &amp;<em>y</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
+<span id="_CPPv328jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv228jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_mul__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga5521ad46f5bab0d77c8bb036742f455d"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_dense_elementwise_mul</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">y</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor">
-<span id="_CPPv331batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv231batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"></span><span id="batched_dense_vec_jagged_2d_mul__TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga67afdd148d57be07278c9cb088b5ff4b"></span>Tensor <code class="sig-name descname">batched_dense_vec_jagged_2d_mul</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>v</em>, <em class="property">const</em> Tensor &amp;<em>a_values</em>, <em class="property">const</em> Tensor &amp;<em>a_offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor">
+<span id="_CPPv331batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv231batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"></span><span id="batched_dense_vec_jagged_2d_mul__TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga67afdd148d57be07278c9cb088b5ff4b"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">batched_dense_vec_jagged_2d_mul</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">v</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">a_values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">a_offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE">
-<span id="_CPPv315dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"></span><span id="_CPPv215dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"></span><span id="dense_to_jagged__TensorCR.std::vector:Tensor:CR.c10::optional:at::SymInt:"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gae25fa8a028fc083f06e445e1d2ebb208"></span>std::tuple&lt;Tensor, std::vector&lt;Tensor&gt;&gt; <code class="sig-name descname">dense_to_jagged</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>dense</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>offsets</em>, c10::optional&lt;at::SymInt&gt; <em>total_L</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE">
+<span id="_CPPv315dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"></span><span id="_CPPv215dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"></span><span id="dense_to_jagged__TensorCR.std::vector:Tensor:CR.c10::optional:at::SymInt:"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gae25fa8a028fc083f06e445e1d2ebb208"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">dense_to_jagged</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dense</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">SymInt</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_L</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
-<span id="_CPPv342jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv242jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add_jagged_output__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga1290f40c3ba39837dd009c3006353d7c"></span>std::tuple&lt;Tensor, std::vector&lt;Tensor&gt;&gt; <code class="sig-name descname">jagged_dense_elementwise_add_jagged_output</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>x_values</em>, <em class="property">const</em> std::vector&lt;Tensor&gt; &amp;<em>x_offsets</em>, <em class="property">const</em> Tensor &amp;<em>y</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor">
+<span id="_CPPv342jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="_CPPv242jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"></span><span id="jagged_dense_elementwise_add_jagged_output__TensorCR.std::vector:Tensor:CR.TensorCR"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga1290f40c3ba39837dd009c3006353d7c"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_dense_elementwise_add_jagged_output</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_values</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">x_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">y</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Output = x + y where x is jagged, y is dense, and output is jagged </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t">
-<span id="_CPPv318jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"></span><span id="_CPPv218jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"></span><span id="jagged_1d_to_dense__Tensor.Tensor.c10::SymInt.int64_t"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga93b5edf03f38d8eaf9a0f1ece0bc1af7"></span>Tensor <code class="sig-name descname">jagged_1d_to_dense</code><span class="sig-paren">(</span>Tensor <em>values</em>, Tensor <em>offsets</em>, c10::SymInt <em>max_L</em>, int64_t <em>padding_value</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t">
+<span id="_CPPv318jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"></span><span id="_CPPv218jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"></span><span id="jagged_1d_to_dense__Tensor.Tensor.c10::SymInt.int64_t"></span><span class="target" id="group__jagged-tensor-ops-cpu_1ga93b5edf03f38d8eaf9a0f1ece0bc1af7"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_1d_to_dense</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">values</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">SymInt</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_L</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">padding_value</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE">
-<span id="_CPPv318jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"></span><span id="_CPPv218jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"></span><span id="jagged_2d_to_dense__Tensor.Tensor.c10::SymInt"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gaaa301b81a22a3d823ba5e65828093113"></span>Tensor <code class="sig-name descname">jagged_2d_to_dense</code><span class="sig-paren">(</span>Tensor <em>values</em>, Tensor <em>offsets</em>, c10::SymInt <em>max_sequence_length</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE">
+<span id="_CPPv318jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"></span><span id="_CPPv218jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"></span><span id="jagged_2d_to_dense__Tensor.Tensor.c10::SymInt"></span><span class="target" id="group__jagged-tensor-ops-cpu_1gaaa301b81a22a3d823ba5e65828093113"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">jagged_2d_to_dense</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">values</span></span>, <span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">SymInt</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_sequence_length</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -480,11 +483,9 @@ <h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/layout_transform_ops.html b/cpp-api/layout_transform_ops.html
index cef98ca76..4014e6d46 100644
--- a/cpp-api/layout_transform_ops.html
+++ b/cpp-api/layout_transform_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Embedding Operators" href="embedding_ops.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,30 +354,30 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="layout-transformation-operators">
-<h1>Layout Transformation Operators<a class="headerlink" href="#layout-transformation-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Layout Transformation Operators<a class="headerlink" href="#layout-transformation-operators" title="Permalink to this heading">¶</a></h1>
 <section id="cuda-operators">
-<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE">
-<span id="_CPPv332recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv232recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_cuda__Tensor.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cuda_1ga09438223bb710af7f55fb6d25fc9d99f"></span>Tensor <code class="sig-name descname">recat_embedding_grad_output_cuda</code><span class="sig-paren">(</span>Tensor <em>grad_output</em>, <em class="property">const</em> std::vector&lt;int64_t&gt; &amp;<em>num_features_per_rank</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE">
+<span id="_CPPv332recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv232recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_cuda__Tensor.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cuda_1ga09438223bb710af7f55fb6d25fc9d99f"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">recat_embedding_grad_output_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">grad_output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">num_features_per_rank</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE">
-<span id="_CPPv340recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv240recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_mixed_D_cuda__TensorCR.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cuda_1gaf753887183c2603a01978463228a0343"></span>Tensor <code class="sig-name descname">recat_embedding_grad_output_mixed_D_cuda</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>grad_output</em>, <em class="property">const</em> std::vector&lt;int64_t&gt; &amp;<em>dim_sum_per_rank</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE">
+<span id="_CPPv340recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv240recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_mixed_D_cuda__TensorCR.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cuda_1gaf753887183c2603a01978463228a0343"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">recat_embedding_grad_output_mixed_D_cuda</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">grad_output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dim_sum_per_rank</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor">
-<span id="_CPPv346recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv246recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"></span><span id="recat_embedding_grad_output_mixed_D_batch_cuda__TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__layout-transform-cuda_1gad5cabc0ba0ee6dfd8a8de4e5825c62e9"></span>Tensor <code class="sig-name descname">recat_embedding_grad_output_mixed_D_batch_cuda</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>grad_output</em>, <em class="property">const</em> Tensor &amp;<em>dim_sum_per_rank</em>, <em class="property">const</em> Tensor &amp;<em>cumsum_dim_sum_per_rank</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor">
+<span id="_CPPv346recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv246recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"></span><span id="recat_embedding_grad_output_mixed_D_batch_cuda__TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__layout-transform-cuda_1gad5cabc0ba0ee6dfd8a8de4e5825c62e9"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">recat_embedding_grad_output_mixed_D_batch_cuda</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">grad_output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dim_sum_per_rank</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">cumsum_dim_sum_per_rank</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
 <section id="cpu-operators">
-<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE">
-<span id="_CPPv339recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv239recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_mixed_D_cpu__TensorCR.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cpu_1ga8edc2bee42577b7eeb76613b52d62311"></span>Tensor <code class="sig-name descname">recat_embedding_grad_output_mixed_D_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>grad_output</em>, <em class="property">const</em> std::vector&lt;int64_t&gt; &amp;<em>dim_sum_per_rank</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE">
+<span id="_CPPv339recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="_CPPv239recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"></span><span id="recat_embedding_grad_output_mixed_D_cpu__TensorCR.std::vector:int64_t:CR"></span><span class="target" id="group__layout-transform-cpu_1ga8edc2bee42577b7eeb76613b52d62311"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">recat_embedding_grad_output_mixed_D_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">grad_output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">dim_sum_per_rank</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -443,11 +446,9 @@ <h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/memory_utils.html b/cpp-api/memory_utils.html
index 9144f91fb..bd250f75f 100644
--- a/cpp-api/memory_utils.html
+++ b/cpp-api/memory_utils.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Combine Input Operators" href="input_combine.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,11 +354,220 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="cuda-memory-operators">
-<h1>CUDA Memory Operators<a class="headerlink" href="#cuda-memory-operators" title="Permalink to this headline">¶</a></h1>
-<div class="admonition warning">
-<p class="admonition-title">Warning</p>
-<p>doxygengroup: Cannot find group “memory-utils” in doxygen xml output for project “fbgemm_gpu” from directory: ../build/xml/</p>
+<h1>CUDA Memory Operators<a class="headerlink" href="#cuda-memory-operators" title="Permalink to this heading">¶</a></h1>
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">
+<span id="_CPPv318new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="_CPPv218new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="new_managed_tensor__TensorCR.std::vector:std::int64_t:CR"></span><span class="target" id="group__cumem-utils_1gab708b23762a11187eb6a32a36f0e34a3"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">new_managed_tensor</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">sizes</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Allocate an <code class="docutils literal notranslate"><span class="pre">at::Tensor</span></code> with unified managed memory (UVM). Then set its preferred storage location to CPU (host memory) and establish mappings on the CUDA device to the host memory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>sizes</strong> – The target tensor dimensions</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor backed by UVM </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE">
+<span id="_CPPv323new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="_CPPv223new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="new_managed_tensor_meta__TensorCR.std::vector:std::int64_t:CR"></span><span class="target" id="group__cumem-utils_1ga5351c6ec3de203476cf09df330455d91"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">new_managed_tensor_meta</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">sizes</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Placeholder operator for the <code class="docutils literal notranslate"><span class="pre">Meta</span></code> dispatch key.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>sizes</strong> – The target tensor dimensions</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new empty tensor </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">
+<span id="_CPPv322new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="_CPPv222new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="new_host_mapped_tensor__TensorCR.std::vector:std::int64_t:CR"></span><span class="target" id="group__cumem-utils_1ga5663643a8ac5de83063d0ff51bb9af17"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">new_host_mapped_tensor</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">sizes</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Allocate the <code class="docutils literal notranslate"><span class="pre">at::Tensor</span></code> with host-mapped memory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>sizes</strong> – The target tensor dimensions</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor backed by host-mapped memory </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb">
+<span id="_CPPv318new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"></span><span id="_CPPv218new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"></span><span id="new_unified_tensor__TensorCR.std::vector:std::int64_t:CR.b"></span><span class="target" id="group__cumem-utils_1ga6f8847537ea9ed13fc7e2e378bc79b1f"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">new_unified_tensor</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">sizes</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">is_host_mapped</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Allocate the <code class="docutils literal notranslate"><span class="pre">at::Tensor</span></code> with either unified managed memory (UVM) or host-mapped memory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>sizes</strong> – The target tensor dimensions </p></li>
+<li><p><strong>is_host_mapped</strong> – Whether to allocate UVM or host-mapped memory</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor backed by UVM or host-mapped memory, depending on the value of <code class="docutils literal notranslate"><span class="pre">is_host_mapped</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">
+<span id="_CPPv326new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="_CPPv226new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"></span><span id="new_vanilla_managed_tensor__TensorCR.std::vector:std::int64_t:CR"></span><span class="target" id="group__cumem-utils_1gad5e0d2307667c3db5e73f0c0eec15df5"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">new_vanilla_managed_tensor</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">int64_t</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">sizes</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Allocate an <code class="docutils literal notranslate"><span class="pre">at::Tensor</span></code> with unified managed memory (UVM), but allow for its preferred storage location to be automatically managed.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>sizes</strong> – The target tensor dimensions</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor backed by UVM </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv411uvm_storageRK6Tensor">
+<span id="_CPPv311uvm_storageRK6Tensor"></span><span id="_CPPv211uvm_storageRK6Tensor"></span><span id="uvm_storage__TensorCR"></span><span class="target" id="group__cumem-utils_1ga05bf2c435c434904ca454c6992861cb6"></span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_storage</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv411uvm_storageRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Check if a tensor is allocated with UVM (either CPU or GPU tensor).</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>self</strong> – The input tensor</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="docutils literal notranslate"><span class="pre">true</span></code> if the tensor is allocated with UVM, otherwise <code class="docutils literal notranslate"><span class="pre">false</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv413is_uvm_tensorRK6Tensor">
+<span id="_CPPv313is_uvm_tensorRK6Tensor"></span><span id="_CPPv213is_uvm_tensorRK6Tensor"></span><span id="is_uvm_tensor__TensorCR"></span><span class="target" id="group__cumem-utils_1gacba28ed334d071e79c1ead1792391e9d"></span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">is_uvm_tensor</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv413is_uvm_tensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Check if a tensor is allocated with UVM, BUT is not a CPU tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>self</strong> – The input tensor</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="docutils literal notranslate"><span class="pre">true</span></code> if the tensor is a non-CPU tensor allocated with UVM, otherwise <code class="docutils literal notranslate"><span class="pre">false</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv410uvm_to_cpuRK6Tensor">
+<span id="_CPPv310uvm_to_cpuRK6Tensor"></span><span id="_CPPv210uvm_to_cpuRK6Tensor"></span><span id="uvm_to_cpu__TensorCR"></span><span class="target" id="group__cumem-utils_1gab5a3dab831988b1ce368ccc545b75b48"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_to_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv410uvm_to_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Convert a UVM tensor to a CPU tensor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>self</strong> – The input tensor</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor that is effectively the input moved from UVM to CPU </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv413uvm_to_deviceRK6TensorRK6Tensor">
+<span id="_CPPv313uvm_to_deviceRK6TensorRK6Tensor"></span><span id="_CPPv213uvm_to_deviceRK6TensorRK6Tensor"></span><span id="uvm_to_device__TensorCR.TensorCR"></span><span class="target" id="group__cumem-utils_1gaebfedcf8e6017a6d4f6fb16b52c4c04e"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_to_device</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">prototype</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv413uvm_to_deviceRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Create a new UVM tensor that shares the same device and UVM storage with <code class="docutils literal notranslate"><span class="pre">prototype</span></code>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>prototype</strong> – The target tensor whose device and and UVM storage will be shared with the new tensor</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new tensor that shares the same device and UVM storage with <code class="docutils literal notranslate"><span class="pre">prototype</span></code>. </p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t">
+<span id="_CPPv319uvm_cuda_mem_adviseRK6Tensor7int64_t"></span><span id="_CPPv219uvm_cuda_mem_adviseRK6Tensor7int64_t"></span><span id="uvm_cuda_mem_advise__TensorCR.int64_t"></span><span class="target" id="group__cumem-utils_1gae8c724e90d31245756fc4b0d975f9370"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_cuda_mem_advise</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cuda_memory_advise</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Call <code class="docutils literal notranslate"><span class="pre">cudaMemAdvise()</span></code> on a UVM tensor’s storage. The <code class="docutils literal notranslate"><span class="pre">cudaMemoryAdvise</span></code> enum is available on the Python side in the <code class="docutils literal notranslate"><span class="pre">fbgemm_gpu.uvm</span></code> namespace; see the documentation over there for valid values.</p>
+<p><div class="admonition seealso">
+<p class="admonition-title">See also</p>
+<p>See <a class="reference external" href="https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemAdvise">here</a> For more information on the <code class="docutils literal notranslate"><span class="pre">cudaMemoryAdvise</span></code> enum. </p>
+</div>
+</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>cuda_memory_advise</strong> – The <code class="docutils literal notranslate"><span class="pre">cudaMemoryAdvise</span></code> enum value, as integer</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE">
+<span id="_CPPv327uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE"></span><span id="_CPPv227uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE"></span><span id="uvm_cuda_mem_prefetch_async__TensorCR.c10::optional:Tensor:"></span><span class="target" id="group__cumem-utils_1gaf060db44e71e3419df6e596614ef2081"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_cuda_mem_prefetch_async</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">device_t</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Call <code class="docutils literal notranslate"><span class="pre">cudaMemPrefetchAsync()</span></code> on a UVM tensor’s storage to prefetch memory to a destination device.</p>
+<p><div class="admonition seealso">
+<p class="admonition-title">See also</p>
+<p>See <a class="reference external" href="https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemPrefetchAsync">here</a> For more information on <code class="docutils literal notranslate"><span class="pre">cudaMemPrefetchAsync()</span></code>. </p>
 </div>
+</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>self</strong> – The input tensor </p></li>
+<li><p><strong>device_t</strong> – <strong>[OPTIONAL]</strong> The tensor whose device will be the prefetch destination</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv424uvm_mem_advice_dont_forkRK6Tensor">
+<span id="_CPPv324uvm_mem_advice_dont_forkRK6Tensor"></span><span id="_CPPv224uvm_mem_advice_dont_forkRK6Tensor"></span><span id="uvm_mem_advice_dont_fork__TensorCR"></span><span class="target" id="group__cumem-utils_1ga01301ad686f7570c21e81c122d2c7af8"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_mem_advice_dont_fork</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv424uvm_mem_advice_dont_forkRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Call <code class="docutils literal notranslate"><span class="pre">madvise(...MADV_DONTFORK)</span></code> on a UVM tensor’s storage. This is a workaround for an issue where the UVM kernel driver un-maps UVM storage pages from the page table on fork, causing slowdown on the next access from a CPU.</p>
+<p><div class="admonition seealso">
+<p class="admonition-title">See also</p>
+<p>See <a class="reference external" href="https://man7.org/linux/man-pages/man2/madvise.2.html">here</a> For more information on <code class="docutils literal notranslate"><span class="pre">madvise()</span></code>. </p>
+</div>
+</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>self</strong> – The input tensor</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="cpp function">
+<dt class="sig sig-object cpp" id="_CPPv416uvm_to_cpu_cloneRK6Tensor">
+<span id="_CPPv316uvm_to_cpu_cloneRK6Tensor"></span><span id="_CPPv216uvm_to_cpu_cloneRK6Tensor"></span><span id="uvm_to_cpu_clone__TensorCR"></span><span class="target" id="group__cumem-utils_1ga161495e682d9eac3701dca87469930db"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">uvm_to_cpu_clone</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">self</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv416uvm_to_cpu_cloneRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Copy a UVM tensor’s contiguous storage (uvm_storage(t) is true) into a new CPU Tensor. The copy operation uses single-threaded <code class="docutils literal notranslate"><span class="pre">memcpy()</span></code>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>self</strong> – The input tensor</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A new CPU tensor containing the data copied from the UVM tensor </p>
+</dd>
+</dl>
+</dd></dl>
+
 </section>
 
 
@@ -417,11 +629,9 @@ <h1>CUDA Memory Operators<a class="headerlink" href="#cuda-memory-operators" tit
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/merge_pooled_embeddings.html b/cpp-api/merge_pooled_embeddings.html
index 98e6e1823..95190305a 100644
--- a/cpp-api/merge_pooled_embeddings.html
+++ b/cpp-api/merge_pooled_embeddings.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Table Batched Embedding Operators" href="split_table_batched_embeddings.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,58 +354,58 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="pooled-embeddings-operators">
-<h1>Pooled Embeddings Operators<a class="headerlink" href="#pooled-embeddings-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Pooled Embeddings Operators<a class="headerlink" href="#pooled-embeddings-operators" title="Permalink to this heading">¶</a></h1>
 <p>This section includes CUDA and CPU operators for various
 operations with pooled embeddings, including merge and
 permutation operators.</p>
 <section id="merge-operators">
-<h2>Merge Operators<a class="headerlink" href="#merge-operators" title="Permalink to this headline">¶</a></h2>
+<h2>Merge Operators<a class="headerlink" href="#merge-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE">
-<span id="_CPPv317all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"></span><span id="_CPPv217all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"></span><span id="all_to_one_device__std::vector:at::Tensor:.at::Device"></span><span class="target" id="group__merge-pooled-emb_1ga3933c7465129b58edd60ffcc1999c223"></span>std::vector&lt;at::Tensor&gt; <code class="sig-name descname">all_to_one_device</code><span class="sig-paren">(</span>std::vector&lt;at::Tensor&gt; <em>inputTensors</em>, at::Device <em>target_device</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE">
+<span id="_CPPv317all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"></span><span id="_CPPv217all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"></span><span id="all_to_one_device__std::vector:at::Tensor:.at::Device"></span><span class="target" id="group__merge-pooled-emb_1ga3933c7465129b58edd60ffcc1999c223"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">all_to_one_device</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">vector</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">inputTensors</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Device</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">target_device</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
 <section id="permutation-operators">
-<h2>Permutation Operators<a class="headerlink" href="#permutation-operators" title="Permalink to this headline">¶</a></h2>
+<h2>Permutation Operators<a class="headerlink" href="#permutation-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
-<span id="_CPPv329permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv229permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_split_gpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1ga342967f8cc4e25c7655d1987536cdc6b"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_split_gpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> at::Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>permute_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
+<span id="_CPPv329permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv229permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_split_gpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1ga342967f8cc4e25c7655d1987536cdc6b"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_split_gpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
-<span id="_CPPv339permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv239permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_auto_grad_split_gpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1gab5673b48b58896e4954cc8fc7c90c4d8"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_auto_grad_split_gpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> at::Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>permute_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
+<span id="_CPPv339permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv239permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_auto_grad_split_gpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1gab5673b48b58896e4954cc8fc7c90c4d8"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_auto_grad_split_gpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
-<span id="_CPPv333permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv233permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad_gpu__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1gad0d8a6f85fc81bc54e4c20e60fe6eb11"></span>Tensor <code class="sig-name descname">permute_pooled_embs_auto_grad_gpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>permute_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
+<span id="_CPPv333permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv233permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad_gpu__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-gpu_1gad0d8a6f85fc81bc54e4c20e60fe6eb11"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_auto_grad_gpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
-<span id="_CPPv329permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv229permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_split_cpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga21fd23f8f0de62159529356ebf7eb1f1"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_split_cpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> at::Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>permute_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb">
+<span id="_CPPv328permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"></span><span id="_CPPv228permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"></span><span id="permute_pooled_embs_cpu_impl__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.bCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga39797562608b1226fc1632f815f7d8a2"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_cpu_impl</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">allow_duplicates</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
-<span id="_CPPv339permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv239permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_auto_grad_split_cpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga62bb71eb3e7a980ce5efded317717189"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_auto_grad_split_cpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> at::Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>permute_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
+<span id="_CPPv329permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv229permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_split_cpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga21fd23f8f0de62159529356ebf7eb1f1"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_split_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
-<span id="_CPPv323permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv223permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_cpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1gaa321302401045119810e93f42a361f1f"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_cpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> at::Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>permute_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> at::Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">
+<span id="_CPPv339permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="_CPPv239permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"></span><span id="permute_pooled_embs_auto_grad_split_cpu__at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR.at::TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga62bb71eb3e7a980ce5efded317717189"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_auto_grad_split_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
-<span id="_CPPv329permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv229permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga3fd0766d863a18ea5cce4bfdef6a0349"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_auto_grad</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>permute_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
+<span id="_CPPv329permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv229permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1ga3fd0766d863a18ea5cce4bfdef6a0349"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_auto_grad</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
-<span id="_CPPv333permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv233permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad_cpu__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1gac050c22198470709b89b4d5b160006b0"></span>at::Tensor <code class="sig-name descname">permute_pooled_embs_auto_grad_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>pooled_embs</em>, <em class="property">const</em> Tensor &amp;<em>offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>permute_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_offset_dim_list</em>, <em class="property">const</em> Tensor &amp;<em>inv_permute_list</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor">
+<span id="_CPPv333permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="_CPPv233permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"></span><span id="permute_pooled_embs_auto_grad_cpu__TensorCR.TensorCR.TensorCR.TensorCR.TensorCR"></span><span class="target" id="group__permute-pooled-embs-cpu_1gac050c22198470709b89b4d5b160006b0"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">permute_pooled_embs_auto_grad_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">pooled_embs</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_offset_dim_list</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">inv_permute_list</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -471,11 +474,9 @@ <h2>Permutation Operators<a class="headerlink" href="#permutation-operators" tit
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/quantize_ops.html b/cpp-api/quantize_ops.html
index 41c2823a6..e7b0739ac 100644
--- a/cpp-api/quantize_ops.html
+++ b/cpp-api/quantize_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Pooled Embeddings Operators" href="merge_pooled_embeddings.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Quantization Operators</a></li>
@@ -351,183 +354,184 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="quantization-operators">
-<h1>Quantization Operators<a class="headerlink" href="#quantization-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Quantization Operators<a class="headerlink" href="#quantization-operators" title="Permalink to this heading">¶</a></h1>
 <p>Quantization is a model optimization technique to reduce the size of a large
-model in order to achieve better storage performance with a small loss in accuracy.</p>
+model in order to achieve better storage performance with a small loss in
+accuracy.</p>
 <section id="cuda-operators">
-<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga2f1cc4b6dc6f708324855f94d558cfc1"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _float_to_bfloat16_gpu (const at::Tensor &amp;input)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga2f1cc4b6dc6f708324855f94d558cfc1"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_float_to_bfloat16_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input)</span></span></dt>
 <dd><p>Converts a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values into a tensor of Brain Floating Point (<code class="docutils literal notranslate"><span class="pre">bfloat16</span></code>) values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga2076a59fd190690f67c1eddb79b6acc4"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _bfloat16_to_float_gpu (const at::Tensor &amp;input)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga2076a59fd190690f67c1eddb79b6acc4"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_bfloat16_to_float_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input)</span></span></dt>
 <dd><p>Converts a tensor of Brain Floating Point (<code class="docutils literal notranslate"><span class="pre">bfloat16</span></code>) values into a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga31b9029d43a60ad1fc90dc6ec54af9db"></span><code class="sig-name descname">DLL_PUBLIC Tensor _float_to_FP8rowwise_gpu (const Tensor &amp;input, const bool forward)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga31b9029d43a60ad1fc90dc6ec54af9db"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_float_to_FP8rowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">bool</span> <span class="pre">forward)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga8c11c8dc06cae57b3afba79358c00e99"></span><code class="sig-name descname">DLL_PUBLIC Tensor _float_to_fused8bitrowwise_gpu (const Tensor &amp;input)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga8c11c8dc06cae57b3afba79358c00e99"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_float_to_fused8bitrowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1gaff285349cb9c51a56fc418b628772b16"></span><code class="sig-name descname">DLL_PUBLIC Tensor _single_or_half_precision_to_fused8bitrowwise_gpu (const Tensor &amp;input)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1gaff285349cb9c51a56fc418b628772b16"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_single_or_half_precision_to_fused8bitrowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1gafacdb4ec7d8f5b969c75d2127537ab16"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _fused8bitrowwise_to_single_or_half_precision_gpu (const at::Tensor &amp;input, const int64_t output_dtype)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1gafacdb4ec7d8f5b969c75d2127537ab16"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_fused8bitrowwise_to_single_or_half_precision_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">output_dtype)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga4c2c033e940095d20e76e9e00fe925d3"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _fused8bitrowwise_to_float_mixed_dim_gpu (const at::Tensor &amp;input, const at::Tensor &amp;D_offsets, const int64_t output_dtype)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga4c2c033e940095d20e76e9e00fe925d3"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_fused8bitrowwise_to_float_mixed_dim_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;D_offsets,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">output_dtype)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t">
-<span id="_CPPv3I0E32_float_to_fusednbitrowwise_gpu_tRK6TensorK7int64_t"></span><span id="_CPPv2I0E32_float_to_fusednbitrowwise_gpu_tRK6TensorK7int64_t"></span>template&lt;typename <code class="sig-name descname">input_t</code>&gt;<br /><span class="target" id="group__quantize-ops-cuda_1ga02c8f9158646d9b16efbd3853711f56a"></span>Tensor <code class="sig-name descname">_float_to_fusednbitrowwise_gpu_t</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>bit_rate</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t">
+<span id="_CPPv3I0E32_float_to_fusednbitrowwise_gpu_tRK6TensorK7int64_t"></span><span id="_CPPv2I0E32_float_to_fusednbitrowwise_gpu_tRK6TensorK7int64_t"></span><span class="k"><span class="pre">template</span></span><span class="p"><span class="pre">&lt;</span></span><span class="k"><span class="pre">typename</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">input_t</span></span></span><span class="p"><span class="pre">&gt;</span></span><br /><span class="target" id="group__quantize-ops-cuda_1ga02c8f9158646d9b16efbd3853711f56a"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">_float_to_fusednbitrowwise_gpu_t</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bit_rate</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1gaa3e8fd136e9bfa0e4d0c0016659bf708"></span><code class="sig-name descname">DLL_PUBLIC Tensor _float_to_fusednbitrowwise_gpu (const Tensor &amp;input, const int64_t bit_rate)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1gaa3e8fd136e9bfa0e4d0c0016659bf708"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_float_to_fusednbitrowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bit_rate)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga6e2bd64f3f9e3b36493ec955680771af"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _half_to_fusednbitrowwise_gpu (const at::Tensor &amp;input, const int64_t bit_rate)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga6e2bd64f3f9e3b36493ec955680771af"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_half_to_fusednbitrowwise_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bit_rate)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t">
-<span id="_CPPv3I0E32_fusednbitrowwise_to_float_gpu_tRK6TensorK7int64_t"></span><span id="_CPPv2I0E32_fusednbitrowwise_to_float_gpu_tRK6TensorK7int64_t"></span>template&lt;typename <code class="sig-name descname">output_t</code>&gt;<br /><span class="target" id="group__quantize-ops-cuda_1gae1e827b74f0825dc4135e68c10e443b3"></span>Tensor <code class="sig-name descname">_fusednbitrowwise_to_float_gpu_t</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>bit_rate</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t">
+<span id="_CPPv3I0E32_fusednbitrowwise_to_float_gpu_tRK6TensorK7int64_t"></span><span id="_CPPv2I0E32_fusednbitrowwise_to_float_gpu_tRK6TensorK7int64_t"></span><span class="k"><span class="pre">template</span></span><span class="p"><span class="pre">&lt;</span></span><span class="k"><span class="pre">typename</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">output_t</span></span></span><span class="p"><span class="pre">&gt;</span></span><br /><span class="target" id="group__quantize-ops-cuda_1gae1e827b74f0825dc4135e68c10e443b3"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">_fusednbitrowwise_to_float_gpu_t</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bit_rate</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga6152517943258bd3adc42b7c103a9277"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _fusednbitrowwise_to_half_gpu (const at::Tensor &amp;input, const int64_t bit_rate)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga6152517943258bd3adc42b7c103a9277"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_fusednbitrowwise_to_half_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bit_rate)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga07f4c02c95710472b815bdc1d7bfff19"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _fusednbitrowwise_to_float_or_half_gpu (const at::Tensor &amp;input, const int64_t bit_rate, const int64_t output_dtype)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga07f4c02c95710472b815bdc1d7bfff19"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_fusednbitrowwise_to_float_or_half_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bit_rate,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">output_dtype)</span></span></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1gab2837424e3774fe34ba255658554a75a"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _float_to_hfp8_gpu (const at::Tensor &amp;input, const int64_t ebits, const int64_t exponent_bias, const double max_pos)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1gab2837424e3774fe34ba255658554a75a"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_float_to_hfp8_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">ebits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">exponent_bias,</span> <span class="pre">const</span> <span class="pre">double</span> <span class="pre">max_pos)</span></span></dt>
 <dd><p>Converts a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values into a tensor of Hybrid 8-bit Floating Point (<code class="docutils literal notranslate"><span class="pre">hfp8</span></code>) values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga03a8f8825a16c6235b699886fa46e1f6"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _hfp8_to_float_gpu (const at::Tensor &amp;input, const int64_t ebits, const int64_t exponent_bias)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga03a8f8825a16c6235b699886fa46e1f6"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_hfp8_to_float_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">ebits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">exponent_bias)</span></span></dt>
 <dd><p>Converts a tensor of Hybrid 8-bit Floating Point (<code class="docutils literal notranslate"><span class="pre">hfp8</span></code>) values into a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga427f81e1d8901e2fafc9611860fbd4d5"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _float_to_msfp_gpu (const at::Tensor &amp;input, const int64_t bounding_box_size, const int64_t ebits, const int64_t mbits, const int64_t bias, const double min_pos, const double max_pos)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga427f81e1d8901e2fafc9611860fbd4d5"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_float_to_msfp_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bounding_box_size,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">ebits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">mbits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bias,</span> <span class="pre">const</span> <span class="pre">double</span> <span class="pre">min_pos,</span> <span class="pre">const</span> <span class="pre">double</span> <span class="pre">max_pos)</span></span></dt>
 <dd><p>Converts a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values into a tensor of Microsoft Floating Point (<code class="docutils literal notranslate"><span class="pre">msfp</span></code>) values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1gac0c20377454dbfafcc5ac245fe6427ce"></span><code class="sig-name descname">DLL_PUBLIC at::Tensor _msfp_to_float_gpu (const at::Tensor &amp;input, const int64_t ebits, const int64_t mbits, const int64_t bias)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1gac0c20377454dbfafcc5ac245fe6427ce"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">at::Tensor</span> <span class="pre">_msfp_to_float_gpu</span> <span class="pre">(const</span> <span class="pre">at::Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">ebits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">mbits,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bias)</span></span></dt>
 <dd><p>Converts a tensor of Microsoft Floating Point (<code class="docutils literal notranslate"><span class="pre">msfp</span></code>) values into a tensor of <code class="docutils literal notranslate"><span class="pre">float</span></code> values. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__quantize-ops-cuda_1ga5043927653e4d50462b79b7f3df33223"></span><code class="sig-name descname">DLL_PUBLIC Tensor _float_to_paddedFP8rowwise_gpu (const Tensor &amp;input, const bool forward, const int64_t row_dim)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__quantize-ops-cuda_1ga5043927653e4d50462b79b7f3df33223"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_float_to_paddedFP8rowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">bool</span> <span class="pre">forward,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">row_dim)</span></span></dt>
 <dd></dd></dl>
 
 </section>
 <section id="cpu-operators">
-<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this headline">¶</a></h2>
+<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor">
-<span id="_CPPv334_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"></span><span id="_CPPv234_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"></span><span id="_fused8bitrowwise_to_float_cpu_out__TensorR.TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gabeb6675833a5b14e0a0d01385770a771"></span>Tensor &amp;<code class="sig-name descname">_fused8bitrowwise_to_float_cpu_out</code><span class="sig-paren">(</span>Tensor &amp;<em>output</em>, <em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor">
+<span id="_CPPv334_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"></span><span id="_CPPv234_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"></span><span id="_fused8bitrowwise_to_float_cpu_out__TensorR.TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gabeb6675833a5b14e0a0d01385770a771"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="sig-name descname"><span class="n"><span class="pre">_fused8bitrowwise_to_float_cpu_out</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor">
-<span id="_CPPv334_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"></span><span id="_CPPv234_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"></span><span id="_float_to_fused8bitrowwise_cpu_out__TensorR.TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gad38a9310258acccab8a017c1616034d0"></span>Tensor &amp;<code class="sig-name descname">_float_to_fused8bitrowwise_cpu_out</code><span class="sig-paren">(</span>Tensor &amp;<em>output</em>, <em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor">
+<span id="_CPPv334_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"></span><span id="_CPPv234_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"></span><span id="_float_to_fused8bitrowwise_cpu_out__TensorR.TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gad38a9310258acccab8a017c1616034d0"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="sig-name descname"><span class="n"><span class="pre">_float_to_fused8bitrowwise_cpu_out</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor">
-<span id="_CPPv329float_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv229float_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="float_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gacf598456fd7aced63b96e8a725f4c418"></span>Tensor <code class="sig-name descname">float_to_fused8bitrowwise_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor">
+<span id="_CPPv329float_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv229float_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="float_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gacf598456fd7aced63b96e8a725f4c418"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">float_to_fused8bitrowwise_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor">
-<span id="_CPPv328half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv228half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="half_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gaa9daf4f3dc64238a5de8f82bbae656cf"></span>Tensor <code class="sig-name descname">half_to_fused8bitrowwise_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor">
+<span id="_CPPv328half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv228half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="half_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gaa9daf4f3dc64238a5de8f82bbae656cf"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">half_to_fused8bitrowwise_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor">
-<span id="_CPPv337float_or_half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv237float_or_half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="float_or_half_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1ga06b7d2bf3fadaa9869555a64a6752ef7"></span>Tensor <code class="sig-name descname">float_or_half_to_fused8bitrowwise_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor">
+<span id="_CPPv337float_or_half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="_CPPv237float_or_half_to_fused8bitrowwise_cpuRK6Tensor"></span><span id="float_or_half_to_fused8bitrowwise_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1ga06b7d2bf3fadaa9869555a64a6752ef7"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">float_or_half_to_fused8bitrowwise_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor">
-<span id="_CPPv329fused8bitrowwise_to_float_cpuRK6Tensor"></span><span id="_CPPv229fused8bitrowwise_to_float_cpuRK6Tensor"></span><span id="fused8bitrowwise_to_float_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gab86a824fed15fab1c318359d069a5180"></span>Tensor <code class="sig-name descname">fused8bitrowwise_to_float_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor">
+<span id="_CPPv329fused8bitrowwise_to_float_cpuRK6Tensor"></span><span id="_CPPv229fused8bitrowwise_to_float_cpuRK6Tensor"></span><span id="fused8bitrowwise_to_float_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1gab86a824fed15fab1c318359d069a5180"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fused8bitrowwise_to_float_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor">
-<span id="_CPPv328fused8bitrowwise_to_half_cpuRK6Tensor"></span><span id="_CPPv228fused8bitrowwise_to_half_cpuRK6Tensor"></span><span id="fused8bitrowwise_to_half_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1ga9284d774f5d4087da98453e96e64d00a"></span>Tensor <code class="sig-name descname">fused8bitrowwise_to_half_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor">
+<span id="_CPPv328fused8bitrowwise_to_half_cpuRK6Tensor"></span><span id="_CPPv228fused8bitrowwise_to_half_cpuRK6Tensor"></span><span id="fused8bitrowwise_to_half_cpu__TensorCR"></span><span class="target" id="group__quantize-data-cpu_1ga9284d774f5d4087da98453e96e64d00a"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fused8bitrowwise_to_half_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t">
-<span id="_CPPv337fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"></span><span id="_CPPv237fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"></span><span id="fused8bitrowwise_to_float_or_half_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1gad219617d0aa308f97fad8dfc6af20213"></span>Tensor <code class="sig-name descname">fused8bitrowwise_to_float_or_half_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>output_dtype</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t">
+<span id="_CPPv337fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"></span><span id="_CPPv237fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"></span><span id="fused8bitrowwise_to_float_or_half_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1gad219617d0aa308f97fad8dfc6af20213"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fused8bitrowwise_to_float_or_half_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423float_to_FP8rowwise_cpuRK6Tensorb">
-<span id="_CPPv323float_to_FP8rowwise_cpuRK6Tensorb"></span><span id="_CPPv223float_to_FP8rowwise_cpuRK6Tensorb"></span><span id="float_to_FP8rowwise_cpu__TensorCR.b"></span><span class="target" id="group__quantize-data-cpu_1gad540dd7f8ad7601b3d9591114e4ef718"></span>Tensor <code class="sig-name descname">float_to_FP8rowwise_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, bool <em>forward</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423float_to_FP8rowwise_cpuRK6Tensorb" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423float_to_FP8rowwise_cpuRK6Tensorb">
+<span id="_CPPv323float_to_FP8rowwise_cpuRK6Tensorb"></span><span id="_CPPv223float_to_FP8rowwise_cpuRK6Tensorb"></span><span id="float_to_FP8rowwise_cpu__TensorCR.b"></span><span class="target" id="group__quantize-data-cpu_1gad540dd7f8ad7601b3d9591114e4ef718"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">float_to_FP8rowwise_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">forward</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423float_to_FP8rowwise_cpuRK6Tensorb" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t">
-<span id="_CPPv323FP8rowwise_to_float_cpuRK6TensorbK7int64_t"></span><span id="_CPPv223FP8rowwise_to_float_cpuRK6TensorbK7int64_t"></span><span id="FP8rowwise_to_float_cpu__TensorCR.b.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga1d3b2f7c37e8755516ff8a4c504017e1"></span>Tensor <code class="sig-name descname">FP8rowwise_to_float_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, bool <em>forward</em>, <em class="property">const</em> int64_t <em>output_dtype</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t">
+<span id="_CPPv323FP8rowwise_to_float_cpuRK6TensorbK7int64_t"></span><span id="_CPPv223FP8rowwise_to_float_cpuRK6TensorbK7int64_t"></span><span id="FP8rowwise_to_float_cpu__TensorCR.b.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga1d3b2f7c37e8755516ff8a4c504017e1"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">FP8rowwise_to_float_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">forward</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t">
-<span id="_CPPv329fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"></span><span id="_CPPv229fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"></span><span id="fusednbitrowwise_to_float_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga61c494baf4e410652ed897534d14aa29"></span>Tensor <code class="sig-name descname">fusednbitrowwise_to_float_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>bit_rate</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t">
+<span id="_CPPv329fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"></span><span id="_CPPv229fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"></span><span id="fusednbitrowwise_to_float_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga61c494baf4e410652ed897534d14aa29"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fusednbitrowwise_to_float_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bit_rate</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t">
-<span id="_CPPv328fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"></span><span id="_CPPv228fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"></span><span id="fusednbitrowwise_to_half_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga1c32bf52a02928dbc573b4ac67065788"></span>Tensor <code class="sig-name descname">fusednbitrowwise_to_half_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>bit_rate</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t">
+<span id="_CPPv328fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"></span><span id="_CPPv228fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"></span><span id="fusednbitrowwise_to_half_cpu__TensorCR.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga1c32bf52a02928dbc573b4ac67065788"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fusednbitrowwise_to_half_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bit_rate</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t">
-<span id="_CPPv337fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"></span><span id="_CPPv237fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"></span><span id="fusednbitrowwise_to_float_or_half_cpu__TensorCR.int64_tC.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga5bd66d69876ef2493a6ebb4346c31bb9"></span>Tensor <code class="sig-name descname">fusednbitrowwise_to_float_or_half_cpu</code><span class="sig-paren">(</span><em class="property">const</em> Tensor &amp;<em>input</em>, <em class="property">const</em> int64_t <em>bit_rate</em>, <em class="property">const</em> int64_t <em>output_dtype</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t">
+<span id="_CPPv337fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"></span><span id="_CPPv237fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"></span><span id="fusednbitrowwise_to_float_or_half_cpu__TensorCR.int64_tC.int64_tC"></span><span class="target" id="group__quantize-data-cpu_1ga5bd66d69876ef2493a6ebb4346c31bb9"></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">fusednbitrowwise_to_float_or_half_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bit_rate</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_dtype</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd">
-<span id="_CPPv323FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"></span><span id="_CPPv223FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"></span><span id="FloatToFP8Quantized_ref__floatCPC.sC.sC.uint8_tPC.iC.iC.doubleC"></span><span class="target" id="group__quantize-data-cpu_1gad14f49d191c7960681206b7103d781c4"></span>void <code class="sig-name descname">FloatToFP8Quantized_ref</code><span class="sig-paren">(</span><em class="property">const</em> float *<em class="property">const</em> <em>input</em>, <em class="property">const</em> size_t <em>nrows</em>, <em class="property">const</em> size_t <em>ncols</em>, uint8_t *<em class="property">const</em> <em>output</em>, <em class="property">const</em> int <em>ebits</em>, <em class="property">const</em> int <em>exponent_bias</em>, <em class="property">const</em> double <em>max_pos</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd">
+<span id="_CPPv323FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"></span><span id="_CPPv223FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"></span><span id="FloatToFP8Quantized_ref__floatCPC.sC.sC.uint8_tPC.iC.iC.doubleC"></span><span class="target" id="group__quantize-data-cpu_1gad14f49d191c7960681206b7103d781c4"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">FloatToFP8Quantized_ref</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">float</span></span><span class="w"> </span><span class="p"><span class="pre">*</span></span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">size_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">nrows</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">size_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">ncols</span></span>, <span class="n"><span class="pre">uint8_t</span></span><span class="w"> </span><span class="p"><span class="pre">*</span></span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">int</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">ebits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">int</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">exponent_bias</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_pos</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi">
-<span id="_CPPv323FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"></span><span id="_CPPv223FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"></span><span id="FP8QuantizedToFloat_ref__uint8_tCPC.sC.sC.floatPC.iC.iC"></span><span class="target" id="group__quantize-data-cpu_1ga4c49e527f364bfa224ed34f4fe9f13e7"></span>void <code class="sig-name descname">FP8QuantizedToFloat_ref</code><span class="sig-paren">(</span><em class="property">const</em> uint8_t *<em class="property">const</em> <em>input</em>, <em class="property">const</em> size_t <em>nrows</em>, <em class="property">const</em> size_t <em>ncols</em>, float *<em class="property">const</em> <em>output</em>, <em class="property">const</em> int <em>ebits</em>, <em class="property">const</em> int <em>exponent_bias</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi">
+<span id="_CPPv323FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"></span><span id="_CPPv223FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"></span><span id="FP8QuantizedToFloat_ref__uint8_tCPC.sC.sC.floatPC.iC.iC"></span><span class="target" id="group__quantize-data-cpu_1ga4c49e527f364bfa224ed34f4fe9f13e7"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">FP8QuantizedToFloat_ref</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">uint8_t</span></span><span class="w"> </span><span class="p"><span class="pre">*</span></span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">input</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">size_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">nrows</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">size_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">ncols</span></span>, <span class="kt"><span class="pre">float</span></span><span class="w"> </span><span class="p"><span class="pre">*</span></span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">int</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">ebits</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="kt"><span class="pre">int</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">exponent_bias</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 </section>
@@ -596,11 +600,9 @@ <h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/sparse_ops.html b/cpp-api/sparse_ops.html
index 3d498eaca..04813a7ce 100644
--- a/cpp-api/sparse_ops.html
+++ b/cpp-api/sparse_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Quantization Operators" href="quantize_ops.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,87 +354,91 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="sparse-data-operators">
-<h1>Sparse Data Operators<a class="headerlink" href="#sparse-data-operators" title="Permalink to this headline">¶</a></h1>
-<section id="sparse-data-cuda-operators">
-<h2>Sparse Data CUDA Operators<a class="headerlink" href="#sparse-data-cuda-operators" title="Permalink to this headline">¶</a></h2>
+<h1>Sparse Data Operators<a class="headerlink" href="#sparse-data-operators" title="Permalink to this heading">¶</a></h1>
+<section id="cuda-operators">
+<h2>CUDA Operators<a class="headerlink" href="#cuda-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t">
-<span id="_CPPv331expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"></span><span id="_CPPv231expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"></span><span id="expand_into_jagged_permute_cuda__at::TensorCR.at::TensorCR.at::TensorCR.int64_t"></span><span class="target" id="group__sparse-data-cuda_1ga2402de1c0102b21af5f2bd5a50d30309"></span>at::Tensor <code class="sig-name descname">expand_into_jagged_permute_cuda</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>permute</em>, <em class="property">const</em> at::Tensor &amp;<em>input_offsets</em>, <em class="property">const</em> at::Tensor &amp;<em>output_offsets</em>, int64_t <em>output_size</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t">
+<span id="_CPPv331expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"></span><span id="_CPPv231expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"></span><span id="expand_into_jagged_permute_cuda__at::TensorCR.at::TensorCR.at::TensorCR.int64_t"></span><span class="target" id="group__sparse-data-cuda_1ga2402de1c0102b21af5f2bd5a50d30309"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">expand_into_jagged_permute_cuda</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">permute</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">input_offsets</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">output_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">output_size</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>expand_into_jagged_permute expand the sparse data permute index from table dimension to batch dimension, for cases where the sparse features has different batch sizes across ranks.</p>
-<p><dl class="simple">
-<dt><strong>Return</strong></dt><dd><p>The output follows the following formula: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">output_permute</span><span class="p">[</span><span class="n">table_offset</span><span class="p">[</span><span class="n">permute</span><span class="p">[</span><span class="n">table</span><span class="p">]]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">batch</span><span class="p">]</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">bag_offset</span><span class="p">[</span><span class="n">batch</span><span class="p">]</span>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>permute</strong> – the table level permute index. </p></li>
+<li><p><strong>input_offsets</strong> – the exclusive offsets of table-level length. </p></li>
+<li><p><strong>output_offsets</strong> – the exclusive offsets of table-level permuted length. The op expands the permute from table level to batch level by contiguously mapping each bag of its corresponding tables to the position the batch sits on after feature permute. We will derive offset array of table and batch to compute the output permute. </p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output follows the following formula: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">output_permute</span><span class="p">[</span><span class="n">table_offset</span><span class="p">[</span><span class="n">permute</span><span class="p">[</span><span class="n">table</span><span class="p">]]</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="n">batch</span><span class="p">]</span><span class="w"> </span><span class="o">&lt;-</span><span class="w"> </span><span class="n">bag_offset</span><span class="p">[</span><span class="n">batch</span><span class="p">]</span>
 </pre></div>
 </div>
- </p>
-</dd>
-<dt><strong>Parameters</strong></dt><dd><ul class="breatheparameterlist simple">
-<li><p><code class="docutils literal notranslate"><span class="pre">permute</span></code>: the table level permute index. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">input_offsets</span></code>: the exclusive offsets of table-level length. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">output_offsets</span></code>: the exclusive offsets of table-level permuted length. The op expands the permute from table level to batch level by contiguously mapping each bag of its corresponding tables to the position the batch sits on after feature permute. We will derive offset array of table and batch to compute the output permute. </p></li>
-</ul>
+</p>
 </dd>
 </dl>
-</p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt>
-<span class="target" id="group__sparse-data-cuda_1ga3b963d0e45c2bc0060aaa974efe64b8a"></span><code class="sig-name descname">DLL_PUBLIC Tensor _float_or_half_to_fusednbitrowwise_gpu (const Tensor &amp;input, const int64_t bit_rate)</code></dt>
+<dt class="sig sig-object cpp">
+<span class="target" id="group__sparse-data-cuda_1ga3b963d0e45c2bc0060aaa974efe64b8a"></span><span class="sig-name descname"><span class="pre">DLL_PUBLIC</span> <span class="pre">Tensor</span> <span class="pre">_float_or_half_to_fusednbitrowwise_gpu</span> <span class="pre">(const</span> <span class="pre">Tensor</span> <span class="pre">&amp;input,</span> <span class="pre">const</span> <span class="pre">int64_t</span> <span class="pre">bit_rate)</span></span></dt>
 <dd></dd></dl>
 
 </section>
-<section id="sparse-data-cpu-operators">
-<h2>Sparse Data CPU Operators<a class="headerlink" href="#sparse-data-cpu-operators" title="Permalink to this headline">¶</a></h2>
+<section id="cpu-operators">
+<h2>CPU Operators<a class="headerlink" href="#cpu-operators" title="Permalink to this heading">¶</a></h2>
 <dl class="cpp function">
-<dt id="_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td">
-<span id="_CPPv333histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"></span><span id="_CPPv233histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"></span><span id="histogram_binning_calibration_cpu__at::TensorCR.at::TensorCR.at::TensorCR.double.double.double.int64_t.double"></span><span class="target" id="group__sparse-data-cpu_1ga201bb2241fc9d582d6c0fe968b0e71ca"></span>std::tuple&lt;at::Tensor, at::Tensor&gt; <code class="sig-name descname">histogram_binning_calibration_cpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>logit</em>, <em class="property">const</em> at::Tensor &amp;<em>bin_num_examples</em>, <em class="property">const</em> at::Tensor &amp;<em>bin_num_positives</em>, double <em>positive_weight</em>, double <em>lower_bound</em> = 0.0, double <em>upper_bound</em> = 1.0, int64_t <em>bin_ctr_in_use_after</em> = 0, double <em>bin_ctr_weight_value</em> = 1.0<span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td" title="Permalink to this definition">¶</a><br /></dt>
-<dd><p>Divide the prediction range (e.g., [0, 1]) into B bins. In each bin, use two parameters to store the number of positive examples and the number of examples that fall into this bucket. So we basically have a histogram for the model prediction. As a result, for each bin, we have a statistical value for the real CTR (<code class="docutils literal notranslate"><span class="pre">num_pos</span> <span class="pre">/</span> <span class="pre">num_example</span></code>). We use this statistical value as the final calibrated prediction if the pre-cali prediction falls into the corresponding bin. In this way, the predictions within each bin should be well-calibrated if we have sufficient examples. That is, we have a fine-grained calibrated model by this calibration module. Theoretically, this calibration layer can fix any uncalibrated model or prediction if we have sufficient bins and examples. <dl class="simple">
-<dt><strong>Return</strong></dt><dd><p><code class="docutils literal notranslate"><span class="pre">[calibrated_prediction,</span> <span class="pre">bin_ids]</span></code> </p>
-</dd>
-<dt><strong>Parameters</strong></dt><dd><ul class="breatheparameterlist simple">
-<li><p><code class="docutils literal notranslate"><span class="pre">logit</span></code>: is input tensor before applying Sigmoid. Assumes positive weight calibration is used for calibartion target, and </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">positive_weight</span></code>: is passed as input argument. The number of bins is automatically derived from <code class="docutils literal notranslate"><span class="pre">bin_num_examples</span></code>, and <code class="docutils literal notranslate"><span class="pre">bin_num_positives</span></code>, all of which should be the same size. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">lower/upper_bound</span></code>: Bounds of the bins. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code>: We will use the calibration_target for the final calibrated prediction if we don’t have sufficient examples. Only use the statistical value of bin CTR after we observe <code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code> examples that fall in this bin. Default value: 0. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">bin_ctr_weight_value</span></code>: Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">final_calibrated_prediction</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">bin_ctr_weight</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">bin_ctr</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span>
+<dt class="sig sig-object cpp" id="_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td">
+<span id="_CPPv333histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"></span><span id="_CPPv233histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"></span><span id="histogram_binning_calibration_cpu__at::TensorCR.at::TensorCR.at::TensorCR.double.double.double.int64_t.double"></span><span class="target" id="group__sparse-data-cpu_1ga201bb2241fc9d582d6c0fe968b0e71ca"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">histogram_binning_calibration_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">logit</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">bin_num_examples</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">bin_num_positives</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">positive_weight</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lower_bound</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0.0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">upper_bound</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1.0</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bin_ctr_in_use_after</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bin_ctr_weight_value</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1.0</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td" title="Permalink to this definition">¶</a><br /></dt>
+<dd><p>Divide the prediction range (e.g., [0, 1]) into B bins. In each bin, use two parameters to store the number of positive examples and the number of examples that fall into this bucket. So we basically have a histogram for the model prediction. As a result, for each bin, we have a statistical value for the real CTR (<code class="docutils literal notranslate"><span class="pre">num_pos</span> <span class="pre">/</span> <span class="pre">num_example</span></code>). We use this statistical value as the final calibrated prediction if the pre-cali prediction falls into the corresponding bin. In this way, the predictions within each bin should be well-calibrated if we have sufficient examples. That is, we have a fine-grained calibrated model by this calibration module. Theoretically, this calibration layer can fix any uncalibrated model or prediction if we have sufficient bins and examples. </p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>logit</strong> – is input tensor before applying Sigmoid. Assumes positive weight calibration is used for calibartion target, and </p></li>
+<li><p><strong>positive_weight</strong> – is passed as input argument. The number of bins is automatically derived from <code class="docutils literal notranslate"><span class="pre">bin_num_examples</span></code>, and <code class="docutils literal notranslate"><span class="pre">bin_num_positives</span></code>, all of which should be the same size. </p></li>
+<li><p><strong>lower/upper_bound</strong> – Bounds of the bins. </p></li>
+<li><p><strong>bin_ctr_in_use_after</strong> – We will use the calibration_target for the final calibrated prediction if we don’t have sufficient examples. Only use the statistical value of bin CTR after we observe <code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code> examples that fall in this bin. Default value: 0. </p></li>
+<li><p><strong>bin_ctr_weight_value</strong> – Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">final_calibrated_prediction</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">bin_ctr_weight</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">bin_ctr</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span>
 <span class="n">bin_ctr_weight</span><span class="p">)</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">calibration_target</span>
 </pre></div>
 </div>
  Default value: 1.0 </p></li>
 </ul>
 </dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="docutils literal notranslate"><span class="pre">[calibrated_prediction,</span> <span class="pre">bin_ids]</span></code></p>
+</dd>
 </dl>
-</p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td">
-<span id="_CPPv352generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"></span><span id="_CPPv252generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"></span><span id="generic_histogram_binning_calibration_by_feature_cpu__at::TensorCR.at::TensorCR.at::TensorCR.int64_t.at::TensorCR.at::TensorCR.at::TensorCR.double.int64_t.double"></span><span class="target" id="group__sparse-data-cpu_1gaef2a0a8c27e3b8b2d72be5c95ba7539e"></span>std::tuple&lt;at::Tensor, at::Tensor&gt; <code class="sig-name descname">generic_histogram_binning_calibration_by_feature_cpu</code><span class="sig-paren">(</span><em class="property">const</em> at::Tensor &amp;<em>logit</em>, <em class="property">const</em> at::Tensor &amp;<em>segment_value</em>, <em class="property">const</em> at::Tensor &amp;<em>segment_lengths</em>, int64_t <em>num_segments</em>, <em class="property">const</em> at::Tensor &amp;<em>bin_num_examples</em>, <em class="property">const</em> at::Tensor &amp;<em>bin_num_positives</em>, <em class="property">const</em> at::Tensor &amp;<em>bin_boundaries</em>, double <em>positive_weight</em>, int64_t <em>bin_ctr_in_use_after</em> = 0, double <em>bin_ctr_weight_value</em> = 1.0<span class="sig-paren">)</span><a class="headerlink" href="#_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td">
+<span id="_CPPv352generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"></span><span id="_CPPv252generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"></span><span id="generic_histogram_binning_calibration_by_feature_cpu__at::TensorCR.at::TensorCR.at::TensorCR.int64_t.at::TensorCR.at::TensorCR.at::TensorCR.double.int64_t.double"></span><span class="target" id="group__sparse-data-cpu_1gaef2a0a8c27e3b8b2d72be5c95ba7539e"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">generic_histogram_binning_calibration_by_feature_cpu</span></span></span><span class="sig-paren">(</span><span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">logit</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">segment_value</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">segment_lengths</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">num_segments</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">bin_num_examples</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">bin_num_positives</span></span>, <span class="k"><span class="pre">const</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="p"><span class="pre">&amp;</span></span><span class="n sig-param"><span class="pre">bin_boundaries</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">positive_weight</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bin_ctr_in_use_after</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">0</span></span>, <span class="kt"><span class="pre">double</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">bin_ctr_weight_value</span></span><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="m"><span class="pre">1.0</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>An extension of histogram binning calibration model which divides data into bins based on one specific feature and prediction/ECTR range. In each bin, use two parameters to store the number of positive examples and the number of examples that fall into this bucket. So we basically have a histogram for the model prediction. As a result, for each bin, we have a statistical value for the real CTR (num_pos / num_example). We use this statistical value as the final calibrated prediction if the pre-cali prediction falls into the corresponding bin. In this way, the predictions within each bin should be well-calibrated if we have sufficient examples. That is, we have a fine-grained calibrated model by this calibration module. Theoretically, this calibration layer can fix any uncalibrated model or prediction if we have sufficient bins and examples.</p>
-<p><p>Assumes positive weight calibration is used for calibartion target, and </p>
-<code class="docutils literal notranslate"><span class="pre">positive_weight</span></code> is passed as input argument. <p>Same as above, but accepts generic “bin_boundaries”, which is assumed to be sorted. </p>
-<dl class="simple">
-<dt><strong>Return</strong></dt><dd><p><code class="docutils literal notranslate"><span class="pre">[calibrated_prediction,</span> <span class="pre">bin_ids]</span></code> </p>
-</dd>
-<dt><strong>Return</strong></dt><dd><p>calibrated_prediction. </p>
-</dd>
-<dt><strong>Parameters</strong></dt><dd><ul class="breatheparameterlist simple">
-<li><p><code class="docutils literal notranslate"><span class="pre">logit</span></code>: is input tensor before applying Sigmoid.</p></li>
-</ul>
-</dd>
-<dt><strong>Parameters</strong></dt><dd><ul class="breatheparameterlist simple">
-<li><p><code class="docutils literal notranslate"><span class="pre">segment_value/lengths</span></code>: Values and lengths in KeyJaggedTensor. Assumes value of length is either 0 or 1. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">num_bins</span></code>: # of bins is no longer the same as <code class="docutils literal notranslate"><span class="pre">bin_num_examples</span></code>, and <code class="docutils literal notranslate"><span class="pre">bin_num_positives</span></code>, all of which should be still the same size. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">lower/upper_bound</span></code>: Bounds of the bins. </p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code>: We will use the calibration_target for the final calibrated prediction if we don’t have sufficient examples. Only use the statistical value of bin CTR after we observe <code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code> examples that fall in this bin. Default value is <code class="docutils literal notranslate"><span class="pre">0</span></code>. &#64;parambin_ctr_weight_value Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">final_calibrated_prediction</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">bin_ctr_weight</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">bin_ctr</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span>
+<p>
+Assumes positive weight calibration is used for calibartion target, and <code class="docutils literal notranslate"><span class="pre">positive_weight</span></code><p>is passed as input argument.</p>
+<p>Same as above, but accepts generic “bin_boundaries”, which is assumed to be sorted.</p>
+</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>logit</strong> – is input tensor before applying Sigmoid.</p></li>
+<li><p><strong>segment_value/lengths</strong> – Values and lengths in KeyJaggedTensor. Assumes value of length is either 0 or 1. </p></li>
+<li><p><strong>num_bins</strong> – # of bins is no longer the same as <code class="docutils literal notranslate"><span class="pre">bin_num_examples</span></code>, and <code class="docutils literal notranslate"><span class="pre">bin_num_positives</span></code>, all of which should be still the same size. </p></li>
+<li><p><strong>lower/upper_bound</strong> – Bounds of the bins. </p></li>
+<li><p><strong>bin_ctr_in_use_after</strong> – We will use the calibration_target for the final calibrated prediction if we don’t have sufficient examples. Only use the statistical value of bin CTR after we observe <code class="docutils literal notranslate"><span class="pre">bin_ctr_in_use_after</span></code> examples that fall in this bin. Default value is <code class="docutils literal notranslate"><span class="pre">0</span></code>. &#64;parambin_ctr_weight_value Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">final_calibrated_prediction</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="n">bin_ctr_weight</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">bin_ctr</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="p">(</span><span class="mi">1</span><span class="w"> </span><span class="o">-</span>
 <span class="n">bin_ctr_weight</span><span class="p">)</span><span class="w"> </span><span class="o">*</span><span class="w"> </span><span class="n">calibration_target</span><span class="p">.</span>
 </pre></div>
 </div>
  Default value: <code class="docutils literal notranslate"><span class="pre">1.0</span></code></p></li>
 </ul>
 </dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="docutils literal notranslate"><span class="pre">[calibrated_prediction,</span> <span class="pre">bin_ids]</span></code></p>
+</dd>
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>calibrated_prediction. </p>
+</dd>
 </dl>
-</p>
 </dd></dl>
 
 </section>
@@ -481,8 +488,8 @@ <h2>Sparse Data CPU Operators<a class="headerlink" href="#sparse-data-cpu-operat
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
 <li><a class="reference internal" href="#">Sparse Data Operators</a><ul>
-<li><a class="reference internal" href="#sparse-data-cuda-operators">Sparse Data CUDA Operators</a></li>
-<li><a class="reference internal" href="#sparse-data-cpu-operators">Sparse Data CPU Operators</a></li>
+<li><a class="reference internal" href="#cuda-operators">CUDA Operators</a></li>
+<li><a class="reference internal" href="#cpu-operators">CPU Operators</a></li>
 </ul>
 </li>
 </ul>
@@ -500,11 +507,9 @@ <h2>Sparse Data CPU Operators<a class="headerlink" href="#sparse-data-cpu-operat
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpp-api/split_table_batched_embeddings.html b/cpp-api/split_table_batched_embeddings.html
index 602dba29a..3a28063c3 100644
--- a/cpp-api/split_table_batched_embeddings.html
+++ b/cpp-api/split_table_batched_embeddings.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Jagged Tensor Operators" href="jagged_tensor_ops.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="quantize_ops.html">Quantization Operators</a></li>
@@ -351,99 +354,99 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="table-batched-embedding-operators">
-<h1>Table Batched Embedding Operators<a class="headerlink" href="#table-batched-embedding-operators" title="Permalink to this headline">¶</a></h1>
+<h1>Table Batched Embedding Operators<a class="headerlink" href="#table-batched-embedding-operators" title="Permalink to this heading">¶</a></h1>
 <dl class="cpp function">
-<dt id="_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb">
-<span id="_CPPv323get_unique_indices_cudaN2at6TensorE7int64_tb"></span><span id="_CPPv223get_unique_indices_cudaN2at6TensorE7int64_tb"></span><span id="get_unique_indices_cuda__at::Tensor.int64_t.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga4887151424a90cfd0abef174a4e91f3f"></span>std::tuple&lt;at::Tensor, at::Tensor, c10::optional&lt;at::Tensor&gt;&gt; <code class="sig-name descname">get_unique_indices_cuda</code><span class="sig-paren">(</span>at::Tensor <em>linear_indices</em>, int64_t <em>max_indices</em>, bool <em>compute_count</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb">
+<span id="_CPPv323get_unique_indices_cudaN2at6TensorE7int64_tb"></span><span id="_CPPv223get_unique_indices_cudaN2at6TensorE7int64_tb"></span><span id="get_unique_indices_cuda__at::Tensor.int64_t.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga4887151424a90cfd0abef174a4e91f3f"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">tuple</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">get_unique_indices_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_indices</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_indices</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">compute_count</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Deduplicate indices. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE">
-<span id="_CPPv328lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"></span><span id="_CPPv228lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"></span><span id="lru_cache_find_uncached_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.int64_t.at::Tensor.b.at::Tensor.b.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga76807cfe283a9e8f258818f3f439e6cd"></span>std::pair&lt;at::Tensor, at::Tensor&gt; <code class="sig-name descname">lru_cache_find_uncached_cuda</code><span class="sig-paren">(</span>at::Tensor <em>unique_indices</em>, at::Tensor <em>unique_indices_length</em>, int64_t <em>max_indices</em>, at::Tensor <em>lxu_cache_state</em>, int64_t <em>time_stamp</em>, at::Tensor <em>lru_state</em>, bool <em>gather_cache_stats</em>, at::Tensor <em>uvm_cache_stats</em>, bool <em>lock_cache_line</em>, at::Tensor <em>lxu_cache_locking_counter</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE">
+<span id="_CPPv328lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"></span><span id="_CPPv228lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"></span><span id="lru_cache_find_uncached_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.int64_t.at::Tensor.b.at::Tensor.b.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga76807cfe283a9e8f258818f3f439e6cd"></span><span class="n"><span class="pre">std</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">pair</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lru_cache_find_uncached_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">unique_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">unique_indices_length</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">max_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">time_stamp</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lru_state</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lock_cache_line</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locking_counter</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Lookup LRU cache to find uncached indices, and then sort them based on the set. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv419host_lxu_cache_slot7int64_t7int64_t">
-<span id="_CPPv319host_lxu_cache_slot7int64_t7int64_t"></span><span id="_CPPv219host_lxu_cache_slot7int64_t7int64_t"></span><span id="host_lxu_cache_slot__int64_t.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga920da453c443675fc7fbc9d68e272a61"></span>int64_t <code class="sig-name descname">host_lxu_cache_slot</code><span class="sig-paren">(</span>int64_t <em>h_in</em>, int64_t <em>C</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv419host_lxu_cache_slot7int64_t7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv419host_lxu_cache_slot7int64_t7int64_t">
+<span id="_CPPv319host_lxu_cache_slot7int64_t7int64_t"></span><span id="_CPPv219host_lxu_cache_slot7int64_t7int64_t"></span><span id="host_lxu_cache_slot__int64_t.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga920da453c443675fc7fbc9d68e272a61"></span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">host_lxu_cache_slot</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">h_in</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">C</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv419host_lxu_cache_slot7int64_t7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Map index to cache_set. h_in: linear_indices; C: #cache_sets. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE">
-<span id="_CPPv328linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="_CPPv228linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="linearize_cache_indices_cuda__at::Tensor.at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga23e7545e51b296d9b72c86f37c360dc6"></span>at::Tensor <code class="sig-name descname">linearize_cache_indices_cuda</code><span class="sig-paren">(</span>at::Tensor <em>cache_hash_size_cumsum</em>, at::Tensor <em>indices</em>, at::Tensor <em>offsets</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE">
+<span id="_CPPv328linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="_CPPv228linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="linearize_cache_indices_cuda__at::Tensor.at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga23e7545e51b296d9b72c86f37c360dc6"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">linearize_cache_indices_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">offsets</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Linearize the indices of all tables to make it be unique </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE">
-<span id="_CPPv341linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="_CPPv241linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="linearize_cache_indices_from_row_idx_cuda__at::Tensor.at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga6eed85d3e9b5dbef8a753bb81c2d6e05"></span>at::Tensor <code class="sig-name descname">linearize_cache_indices_from_row_idx_cuda</code><span class="sig-paren">(</span>at::Tensor <em>cache_hash_size_cumsum</em>, at::Tensor <em>update_table_indices</em>, at::Tensor <em>update_row_indices</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE">
+<span id="_CPPv341linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="_CPPv241linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"></span><span id="linearize_cache_indices_from_row_idx_cuda__at::Tensor.at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1ga6eed85d3e9b5dbef8a753bb81c2d6e05"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">linearize_cache_indices_from_row_idx_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">update_table_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">update_row_indices</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Linearize the indices of all tables to make it be unique. Note the update_table_indices and update_row_indices are from the row indices format for inplace update. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv323lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv223lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"></span><span id="lru_cache_populate_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.b.b.c10::optional:at::Tensor:.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga00d12767ad238d73598bf7dc4d1afa06"></span>void <code class="sig-name descname">lru_cache_populate_cuda</code><span class="sig-paren">(</span>at::Tensor <em>weights</em>, at::Tensor <em>hash_size_cumsum</em>, int64_t <em>total_cache_hash_size</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, int64_t <em>time_stamp</em>, at::Tensor <em>lru_state</em>, bool <em>stochastic_rounding</em>, bool <em>gather_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>uvm_cache_stats</em>, bool <em>lock_cache_line</em>, c10::optional&lt;at::Tensor&gt; <em>lxu_cache_locking_counter</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv323lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv223lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"></span><span id="lru_cache_populate_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.b.b.c10::optional:at::Tensor:.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga00d12767ad238d73598bf7dc4d1afa06"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lru_cache_populate_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">time_stamp</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lru_state</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lock_cache_line</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locking_counter</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>LRU cache: fetch the rows corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code> from <code class="docutils literal notranslate"><span class="pre">weights</span></code>, and insert them into the cache at timestep <code class="docutils literal notranslate"><span class="pre">time_stamp</span></code>. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv328lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv228lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="lru_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga5958e4cecc978d415714a3dd691fbc11"></span>void <code class="sig-name descname">lru_cache_populate_byte_cuda</code><span class="sig-paren">(</span>at::Tensor <em>weights</em>, at::Tensor <em>hash_size_cumsum</em>, int64_t <em>total_cache_hash_size</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>weights_tys</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, int64_t <em>time_stamp</em>, at::Tensor <em>lru_state</em>, int64_t <em>row_alignment</em>, bool <em>gather_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>uvm_cache_stats</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv328lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv228lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="lru_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga5958e4cecc978d415714a3dd691fbc11"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lru_cache_populate_byte_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">time_stamp</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lru_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>LRU cache: fetch the rows corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code> from <code class="docutils literal notranslate"><span class="pre">weights</span></code>, and insert them into the cache at timestep <code class="docutils literal notranslate"><span class="pre">time_stamp</span></code>. weights and lxu_cache_weights have “uint8_t” byte elements </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv342direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv242direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="direct_mapped_lru_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1gae019b6879bd9f89a146e0700d5a4bd8b"></span>void <code class="sig-name descname">direct_mapped_lru_cache_populate_byte_cuda</code><span class="sig-paren">(</span>at::Tensor <em>weights</em>, at::Tensor <em>hash_size_cumsum</em>, int64_t <em>total_cache_hash_size</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>weights_tys</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, int64_t <em>time_stamp</em>, at::Tensor <em>lru_state</em>, at::Tensor <em>lxu_cache_miss_timestamp</em>, int64_t <em>row_alignment</em>, bool <em>gather_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>uvm_cache_stats</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv342direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv242direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="direct_mapped_lru_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1gae019b6879bd9f89a146e0700d5a4bd8b"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">direct_mapped_lru_cache_populate_byte_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">hash_size_cumsum</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">time_stamp</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lru_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_miss_timestamp</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Direct-mapped (assoc=1) variant of lru_cache_populate_byte_cuda </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb">
-<span id="_CPPv323lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"></span><span id="_CPPv223lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"></span><span id="lfu_cache_populate_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga854b8951ef7e78da812be97041d7d2dc"></span>void <code class="sig-name descname">lfu_cache_populate_cuda</code><span class="sig-paren">(</span>at::Tensor <em>weights</em>, at::Tensor <em>cache_hash_size_cumsum</em>, int64_t <em>total_cache_hash_size</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, at::Tensor <em>lfu_state</em>, bool <em>stochastic_rounding</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb">
+<span id="_CPPv323lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"></span><span id="_CPPv223lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"></span><span id="lfu_cache_populate_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga854b8951ef7e78da812be97041d7d2dc"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lfu_cache_populate_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lfu_state</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>LFU cache: fetch the rows corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code> from <code class="docutils literal notranslate"><span class="pre">weights</span></code>, and insert them into the cache. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t">
-<span id="_CPPv328lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="_CPPv228lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="lfu_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga2b76a0cf452f00e77696d896d7a402f3"></span>void <code class="sig-name descname">lfu_cache_populate_byte_cuda</code><span class="sig-paren">(</span>at::Tensor <em>weights</em>, at::Tensor <em>cache_hash_size_cumsum</em>, int64_t <em>total_cache_hash_size</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>weights_tys</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, at::Tensor <em>lfu_state</em>, int64_t <em>row_alignment</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t">
+<span id="_CPPv328lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="_CPPv228lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="lfu_cache_populate_byte_cuda__at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga2b76a0cf452f00e77696d896d7a402f3"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lfu_cache_populate_byte_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_tys</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lfu_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">row_alignment</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>LFU cache: fetch the rows corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code> from <code class="docutils literal notranslate"><span class="pre">weights</span></code>, and insert them into the cache. weights and lxu_cache_weights have “uint8_t” byte elements </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv321lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv221lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"></span><span id="lxu_cache_lookup_cuda__at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:.c10::optional:at::Tensor:.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga124b70b0fede88f508e59111ce6d765f"></span>at::Tensor <code class="sig-name descname">lxu_cache_lookup_cuda</code><span class="sig-paren">(</span>at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, int64_t <em>invalid_index</em>, bool <em>gather_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>uvm_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>num_uniq_cache_indices</em>, c10::optional&lt;at::Tensor&gt; <em>lxu_cache_locations_output</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv321lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv221lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"></span><span id="lxu_cache_lookup_cuda__at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:.c10::optional:at::Tensor:.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga124b70b0fede88f508e59111ce6d765f"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lxu_cache_lookup_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">invalid_index</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">num_uniq_cache_indices</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations_output</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Lookup the LRU/LFU cache: find the cache weights location for all indices. Look up the slots in the cache corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code>, with a sentinel value for missing. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv335direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv235direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="direct_mapped_lxu_cache_lookup_cuda__at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1gab305ebdd3822794c5ac462bf5df4bb49"></span>at::Tensor <code class="sig-name descname">direct_mapped_lxu_cache_lookup_cuda</code><span class="sig-paren">(</span>at::Tensor <em>linear_cache_indices</em>, at::Tensor <em>lxu_cache_state</em>, int64_t <em>invalid_index</em>, bool <em>gather_cache_stats</em>, c10::optional&lt;at::Tensor&gt; <em>uvm_cache_stats</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv335direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv235direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"></span><span id="direct_mapped_lxu_cache_lookup_cuda__at::Tensor.at::Tensor.int64_t.b.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1gab305ebdd3822794c5ac462bf5df4bb49"></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">direct_mapped_lxu_cache_lookup_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">linear_cache_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">invalid_index</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">gather_cache_stats</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_cache_stats</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Lookup the LRU/LFU cache: find the cache weights location for all indices. Look up the slots in the cache corresponding to <code class="docutils literal notranslate"><span class="pre">linear_cache_indices</span></code>, with a sentinel value for missing. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb">
-<span id="_CPPv320lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"></span><span id="_CPPv220lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"></span><span id="lxu_cache_flush_cuda__at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga2b055aeb5bf2d99bfb4351271764cab1"></span>void <code class="sig-name descname">lxu_cache_flush_cuda</code><span class="sig-paren">(</span>at::Tensor <em>uvm_weights</em>, at::Tensor <em>cache_hash_size_cumsum</em>, at::Tensor <em>cache_index_table_map</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>D_offsets</em>, int64_t <em>total_D</em>, at::Tensor <em>lxu_cache_state</em>, at::Tensor <em>lxu_cache_weights</em>, bool <em>stochastic_rounding</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb">
+<span id="_CPPv320lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"></span><span id="_CPPv220lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"></span><span id="lxu_cache_flush_cuda__at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t.at::Tensor.at::Tensor.b"></span><span class="target" id="group__table-batched-embed-cuda_1ga2b055aeb5bf2d99bfb4351271764cab1"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lxu_cache_flush_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_index_table_map</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_D</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="kt"><span class="pre">bool</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">stochastic_rounding</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Flush the cache: store the weights from the cache to the backing storage. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t">
-<span id="_CPPv326reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="_CPPv226reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="reset_weight_momentum_cuda__at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga59334fdad832f8d67576e6c83a9b9d79"></span>void <code class="sig-name descname">reset_weight_momentum_cuda</code><span class="sig-paren">(</span>at::Tensor <em>dev_weights</em>, at::Tensor <em>uvm_weights</em>, at::Tensor <em>lxu_cache_weights</em>, at::Tensor <em>weights_placements</em>, at::Tensor <em>weights_offsets</em>, at::Tensor <em>momentum1_dev</em>, at::Tensor <em>momentum1_uvm</em>, at::Tensor <em>momentum1_placements</em>, at::Tensor <em>momentum1_offsets</em>, at::Tensor <em>D_offsets</em>, at::Tensor <em>pruned_indices</em>, at::Tensor <em>pruned_indices_offsets</em>, at::Tensor <em>logical_table_ids</em>, at::Tensor <em>buffer_ids</em>, at::Tensor <em>cache_hash_size_cumsum</em>, at::Tensor <em>lxu_cache_state</em>, int64_t <em>total_cache_hash_size</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t">
+<span id="_CPPv326reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="_CPPv226reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"></span><span id="reset_weight_momentum_cuda__at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.at::Tensor.int64_t"></span><span class="target" id="group__table-batched-embed-cuda_1ga59334fdad832f8d67576e6c83a9b9d79"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">reset_weight_momentum_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">dev_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">uvm_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_weights</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_placements</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">weights_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_dev</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_uvm</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_placements</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">momentum1_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">D_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pruned_indices</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">pruned_indices_offsets</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">logical_table_ids</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">buffer_ids</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">cache_hash_size_cumsum</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_state</span></span>, <span class="n"><span class="pre">int64_t</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">total_cache_hash_size</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t" title="Permalink to this definition">¶</a><br /></dt>
 <dd></dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE">
-<span id="_CPPv340lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"></span><span id="_CPPv240lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"></span><span id="lxu_cache_locking_counter_decrement_cuda__at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1gaeaf8f13290f0fe389fefa3fc2a944311"></span>void <code class="sig-name descname">lxu_cache_locking_counter_decrement_cuda</code><span class="sig-paren">(</span>at::Tensor <em>lxu_cache_locking_counter</em>, at::Tensor <em>lxu_cache_locations</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE">
+<span id="_CPPv340lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"></span><span id="_CPPv240lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"></span><span id="lxu_cache_locking_counter_decrement_cuda__at::Tensor.at::Tensor"></span><span class="target" id="group__table-batched-embed-cuda_1gaeaf8f13290f0fe389fefa3fc2a944311"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lxu_cache_locking_counter_decrement_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locking_counter</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Decrement the LRU/LFU cache counter based on lxu_cache_locations. </p>
 </dd></dl>
 
 <dl class="cpp function">
-<dt id="_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE">
-<span id="_CPPv331lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv231lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"></span><span id="lxu_cache_locations_update_cuda__at::Tensor.at::Tensor.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga65cba33a439fb1ed50fe2e80dc22b603"></span>void <code class="sig-name descname">lxu_cache_locations_update_cuda</code><span class="sig-paren">(</span>at::Tensor <em>lxu_cache_locations</em>, at::Tensor <em>lxu_cache_locations_new</em>, c10::optional&lt;at::Tensor&gt; <em>num_uniq_cache_indices</em><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
+<dt class="sig sig-object cpp" id="_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE">
+<span id="_CPPv331lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"></span><span id="_CPPv231lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"></span><span id="lxu_cache_locations_update_cuda__at::Tensor.at::Tensor.c10::optional:at::Tensor:"></span><span class="target" id="group__table-batched-embed-cuda_1ga65cba33a439fb1ed50fe2e80dc22b603"></span><span class="kt"><span class="pre">void</span></span><span class="w"> </span><span class="sig-name descname"><span class="n"><span class="pre">lxu_cache_locations_update_cuda</span></span></span><span class="sig-paren">(</span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations</span></span>, <span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">lxu_cache_locations_new</span></span>, <span class="n"><span class="pre">c10</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">optional</span></span><span class="p"><span class="pre">&lt;</span></span><span class="n"><span class="pre">at</span></span><span class="p"><span class="pre">::</span></span><span class="n"><span class="pre">Tensor</span></span><span class="p"><span class="pre">&gt;</span></span><span class="w"> </span><span class="n sig-param"><span class="pre">num_uniq_cache_indices</span></span><span class="sig-paren">)</span><a class="headerlink" href="#_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE" title="Permalink to this definition">¶</a><br /></dt>
 <dd><p>Inplace update lxu_cache_locations to the new one should only update if lxu_cache_locations[i] == -1 and lxu_cache_locations_new[i] &gt;= 0 </p>
 </dd></dl>
 
@@ -508,11 +511,9 @@ <h1>Table Batched Embedding Operators<a class="headerlink" href="#table-batched-
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/cpu__kernel__test_8cpp.html b/cpu__kernel__test_8cpp.html
new file mode 100644
index 000000000..448e548c0
--- /dev/null
+++ b/cpu__kernel__test_8cpp.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/test/cpu_kernel_test.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html">test</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">cpu_kernel_test.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;gtest/gtest.h&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &quot;deeplearning/fbgemm/fbgemm_gpu/codegen/embedding_forward_split_cpu.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;torch/types.h&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="aa2c7091971cf4fd4bcbb3215ebe612cf" name="aa2c7091971cf4fd4bcbb3215ebe612cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa2c7091971cf4fd4bcbb3215ebe612cf">&#9670;&#160;</a></span>TEST()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">cpu_kernel_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">csr2csc_test</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/cpu__utils_8h.html b/cpu__utils_8h.html
new file mode 100644
index 000000000..bdf1d6e81
--- /dev/null
+++ b/cpu__utils_8h.html
@@ -0,0 +1,105 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/cpu_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">cpu_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a17e57fc2dca2d6df09e26f3eec69464c" id="r_a17e57fc2dca2d6df09e26f3eec69464c"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> &gt; </td></tr>
+<tr class="memitem:a17e57fc2dca2d6df09e26f3eec69464c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a17e57fc2dca2d6df09e26f3eec69464c">report_embedding_error</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="namespacefbgemm__gpu.html#aa80cbea4714c980d14626fd87c9287a4">t</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">b_begin</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">b_end</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *<a class="el" href="namespacefbgemm__gpu.html#a66f41f5ea495c26af7e2007fe0a28edc">offsets_data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *<a class="el" href="namespacefbgemm__gpu.html#acb7eb1c50758e407a638a81723961f56">indices_data</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">hash_size</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">allow_minus_one</a>=<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a>)</td></tr>
+<tr class="separator:a17e57fc2dca2d6df09e26f3eec69464c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/cub__namespace__postfix_8cuh.html b/cub__namespace__postfix_8cuh.html
new file mode 100644
index 000000000..e47e1666f
--- /dev/null
+++ b/cub__namespace__postfix_8cuh.html
@@ -0,0 +1,102 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/cub_namespace_postfix.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">cub_namespace_postfix.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a12567f2486c4686871a5330dbd8e9bb4" name="a12567f2486c4686871a5330dbd8e9bb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12567f2486c4686871a5330dbd8e9bb4">&#9670;&#160;</a></span>FBGEMM_GPU_CUB_NS_PREFIX</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_CUB_NS_PREFIX</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/cub__namespace__prefix_8cuh.html b/cub__namespace__prefix_8cuh.html
new file mode 100644
index 000000000..a0fe64898
--- /dev/null
+++ b/cub__namespace__prefix_8cuh.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/cub_namespace_prefix.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">cub_namespace_prefix.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/cuda__utils_8cuh.html b/cuda__utils_8cuh.html
new file mode 100644
index 000000000..e01699c82
--- /dev/null
+++ b/cuda__utils_8cuh.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/cuda_utils.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">cuda_utils.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cassert&gt;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ad64d49299c3d240ae540a693ae38ca38" name="ad64d49299c3d240ae540a693ae38ca38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad64d49299c3d240ae540a693ae38ca38">&#9670;&#160;</a></span>CUDA_CHECK</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define CUDA_CHECK</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">do</span> {                                     \</div>
+<div class="line">    cudaError_t err = <a class="code hl_define" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a>;                   \</div>
+<div class="line">    assert(err == cudaError::cudaSuccess); \</div>
+<div class="line">  } <span class="keywordflow">while</span> (0)</div>
+<div class="ttc" id="agen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu_html_ae6cc33dae61d3333c3d2e6be5f9cf16e"><div class="ttname"><a href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">X</a></div><div class="ttdeci">#define X(DeviceOnly, OutputRowsPerThread, InputRowsInFlight, MinNum128BRows, MaxNum128BRows)</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/cumem__utils_8h.html b/cumem__utils_8h.html
new file mode 100644
index 000000000..b2becd87e
--- /dev/null
+++ b/cumem__utils_8h.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/cumem_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">cumem_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gab708b23762a11187eb6a32a36f0e34a3" id="r_gab708b23762a11187eb6a32a36f0e34a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">new_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gab708b23762a11187eb6a32a36f0e34a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5351c6ec3de203476cf09df330455d91" id="r_ga5351c6ec3de203476cf09df330455d91"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91">new_managed_tensor_meta</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5351c6ec3de203476cf09df330455d91"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5663643a8ac5de83063d0ff51bb9af17" id="r_ga5663643a8ac5de83063d0ff51bb9af17"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17">new_host_mapped_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5663643a8ac5de83063d0ff51bb9af17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6f8847537ea9ed13fc7e2e378bc79b1f" id="r_ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f">new_unified_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_host_mapped</a>)</td></tr>
+<tr class="separator:ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad5e0d2307667c3db5e73f0c0eec15df5" id="r_gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">new_vanilla_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga05bf2c435c434904ca454c6992861cb6" id="r_ga05bf2c435c434904ca454c6992861cb6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6">uvm_storage</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga05bf2c435c434904ca454c6992861cb6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gacba28ed334d071e79c1ead1792391e9d" id="r_gacba28ed334d071e79c1ead1792391e9d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d">is_uvm_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gacba28ed334d071e79c1ead1792391e9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab5a3dab831988b1ce368ccc545b75b48" id="r_gab5a3dab831988b1ce368ccc545b75b48"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48">uvm_to_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gab5a3dab831988b1ce368ccc545b75b48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaebfedcf8e6017a6d4f6fb16b52c4c04e" id="r_gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e">uvm_to_device</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">prototype</a>)</td></tr>
+<tr class="separator:gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gae8c724e90d31245756fc4b0d975f9370" id="r_gae8c724e90d31245756fc4b0d975f9370"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370">uvm_cuda_mem_advise</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cuda_memory_advise</a>)</td></tr>
+<tr class="separator:gae8c724e90d31245756fc4b0d975f9370"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaf060db44e71e3419df6e596614ef2081" id="r_gaf060db44e71e3419df6e596614ef2081"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081">uvm_cuda_mem_prefetch_async</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">device_t</a>)</td></tr>
+<tr class="separator:gaf060db44e71e3419df6e596614ef2081"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga01301ad686f7570c21e81c122d2c7af8" id="r_ga01301ad686f7570c21e81c122d2c7af8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8">uvm_mem_advice_dont_fork</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga01301ad686f7570c21e81c122d2c7af8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga161495e682d9eac3701dca87469930db" id="r_ga161495e682d9eac3701dca87469930db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga161495e682d9eac3701dca87469930db">uvm_to_cpu_clone</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga161495e682d9eac3701dca87469930db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dense__to__jagged__forward_8cu.html b/dense__to__jagged__forward_8cu.html
new file mode 100644
index 000000000..e445b2d50
--- /dev/null
+++ b/dense__to__jagged__forward_8cu.html
@@ -0,0 +1,168 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/dense_to_jagged_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">dense_to_jagged_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ab94a3e4679ece26e229ec76dc9733ca2" name="ab94a3e4679ece26e229ec76dc9733ca2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab94a3e4679ece26e229ec76dc9733ca2">&#9670;&#160;</a></span>DISPATCH_DENSE_TO_JAGGED_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_DENSE_TO_JAGGED_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  AT_DISPATCH_CASE(TYPE, [&amp;] {                                       \</div>
+<div class="line">    jagged_dense_elementwise_jagged_output_opt_&lt;scalar_t&gt;(           \</div>
+<div class="line">        values,                                                      \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>,                                                     \</div>
+<div class="line">        dense,                                                       \</div>
+<div class="line">        <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>,                                                      \</div>
+<div class="line">        [] __device__(scalar_t <span class="comment">/*unused*/</span>, scalar_t y) -&gt; scalar_t { \</div>
+<div class="line">          <span class="keywordflow">return</span> y;                                                  \</div>
+<div class="line">        });                                                          \</div>
+<div class="line">  })</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_aff2584a62b3409906c19c5419a4cc647"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:104</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2f09e89f2172cc358cfffdc866220276" name="a2f09e89f2172cc358cfffdc866220276"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f09e89f2172cc358cfffdc866220276">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;dense_to_jagged_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aa5a76157eb45b9bd4159a548e8a73ce6">fbgemm_gpu::dense_to_jagged_forward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_0255d041b3ce7964bcd7b11954959c22.html b/dir_0255d041b3ce7964bcd7b11954959c22.html
index df00fb44d..3354ae2a9 100644
--- a/dir_0255d041b3ce7964bcd7b11954959c22.html
+++ b/dir_0255d041b3ce7964bcd7b11954959c22.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,86 @@
   <div class="headertitle"><div class="title">codegen Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html">batch_index_select_dim0_cpu_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="batch__index__select__dim0__host_8cpp.html">batch_index_select_dim0_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__dense__host_8cpp.html">embedding_backward_dense_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__dense__host__cpu_8cpp.html">embedding_backward_dense_host_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__cpu__approx__template_8cpp.html">embedding_backward_split_cpu_approx_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__cpu__template_8cpp.html">embedding_backward_split_cpu_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__grad__template_8cu.html">embedding_backward_split_grad_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__host__cpu__template_8cpp.html">embedding_backward_split_host_cpu_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__host__template_8cpp.html">embedding_backward_split_host_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__indice__weights__template_8cu.html">embedding_backward_split_indice_weights_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__kernel__cta__template_8cu.html">embedding_backward_split_kernel_cta_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__kernel__warp__template_8cu.html">embedding_backward_split_kernel_warp_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__split__template_8cu.html">embedding_backward_split_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__bounds__check_8cu.html">embedding_bounds_check.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__bounds__check__host_8cpp.html">embedding_bounds_check_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__bounds__check__host__cpu_8cpp.html">embedding_bounds_check_host_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__cpu__template_8cpp.html">embedding_forward_quantized_cpu_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__host_8cpp.html">embedding_forward_quantized_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html">embedding_forward_quantized_host_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__split__lookup_8cu.html">embedding_forward_quantized_split_lookup.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html">embedding_forward_quantized_split_nbit_host_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__quantized__split__nbit__kernel__template_8cu.html">embedding_forward_quantized_split_nbit_kernel_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__cpu_8cpp.html">embedding_forward_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__cpu_8h.html">embedding_forward_split_cpu.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__kernel__nobag__small__template_8cu.html">embedding_forward_split_kernel_nobag_small_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__kernel__template_8cu.html">embedding_forward_split_kernel_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html">embedding_forward_split_kernel_v2_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__meta__template_8cpp.html">embedding_forward_split_meta_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__split__template_8cu.html">embedding_forward_split_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__forward__template__helpers_8cuh.html">embedding_forward_template_helpers.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__op__registration_8h.html">embedding_op_registration.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__ops__placeholder_8cpp.html">embedding_ops_placeholder.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__optimizer__split__device__kernel__template_8cuh.html">embedding_optimizer_split_device_kernel_template.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__optimizer__split__host__template_8cpp.html">embedding_optimizer_split_host_template.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__optimizer__split__kernel__template_8cu.html">embedding_optimizer_split_kernel_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__optimizer__split__template_8cu.html">embedding_optimizer_split_template.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_02a03557abfde8453507651f5e287abe.html b/dir_02a03557abfde8453507651f5e287abe.html
index a18bf048c..048b24004 100644
--- a/dir_02a03557abfde8453507651f5e287abe.html
+++ b/dir_02a03557abfde8453507651f5e287abe.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/merge_pooled_embedding_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,18 @@
   <div class="headertitle"><div class="title">merge_pooled_embedding_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html">merge_pooled_embedding_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html">merge_pooled_embedding_ops_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_0948881d7cc927e01ea6d36a3aab1e2e.html b/dir_0948881d7cc927e01ea6d36a3aab1e2e.html
index f84acbd57..1e43ca919 100644
--- a/dir_0948881d7cc927e01ea6d36a3aab1e2e.html
+++ b/dir_0948881d7cc927e01ea6d36a3aab1e2e.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,24 @@
   <div class="headertitle"><div class="title">split_embeddings_utils Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="generate__vbe__metadata_8cu.html">generate_vbe_metadata.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="get__infos__metadata_8cu.html">get_infos_metadata.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="radix__sort__pairs_8cu.html">radix_sort_pairs.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__utils_8cpp.html">split_embeddings_utils.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="transpose__embedding__input_8cu.html">transpose_embedding_input.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_13e138d54eb8818da29c3992edef070a.html b/dir_13e138d54eb8818da29c3992edef070a.html
new file mode 100644
index 000000000..e0d9c02c6
--- /dev/null
+++ b/dir_13e138d54eb8818da29c3992edef070a.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/test Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html">test</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">test Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cpu__kernel__test_8cpp.html">cpu_kernel_test.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops__utils__test_8cpp.html">sparse_ops_utils_test.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tensor__assert__test_8cpp.html">tensor_assert_test.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="uvm__cache__miss__emulate__test_8cpp.html">uvm_cache_miss_emulate_test.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_276218242e4c9e66d5a5475a5ec0acdc.html b/dir_276218242e4c9e66d5a5475a5ec0acdc.html
index 121020ebd..fa631c91e 100644
--- a/dir_276218242e4c9e66d5a5475a5ec0acdc.html
+++ b/dir_276218242e4c9e66d5a5475a5ec0acdc.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/metric_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,20 @@
   <div class="headertitle"><div class="title">metric_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="metric__ops_8cu.html">metric_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="metric__ops_8h.html">metric_ops.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="metric__ops__host_8cpp.html">metric_ops_host.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_47b3f8f6a06f015d543fc51782f25cbc.html b/dir_47b3f8f6a06f015d543fc51782f25cbc.html
index b1ff3c3ec..1e230dda8 100644
--- a/dir_47b3f8f6a06f015d543fc51782f25cbc.html
+++ b/dir_47b3f8f6a06f015d543fc51782f25cbc.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/input_combine_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,20 @@
   <div class="headertitle"><div class="title">input_combine_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="input__combine_8cu.html">input_combine.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="input__combine__cpu_8cpp.html">input_combine_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="input__combine__gpu_8cpp.html">input_combine_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_4b83c65efe436c76bd5bbbb817afaf6c.html b/dir_4b83c65efe436c76bd5bbbb817afaf6c.html
index d4254ae47..095250bff 100644
--- a/dir_4b83c65efe436c76bd5bbbb817afaf6c.html
+++ b/dir_4b83c65efe436c76bd5bbbb817afaf6c.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,28 @@
   <div class="headertitle"><div class="title">memory_utils Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils_2common_8cuh.html">common.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils_2common_8h.html">common.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils_8cpp.html">memory_utils.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils_8cu.html">memory_utils.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils__ops_8cpp.html">memory_utils_ops.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils__ops_8cu.html">memory_utils_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="memory__utils__ops__cpu_8cpp.html">memory_utils_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html b/dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html
index cf2129abb..33bf0d131 100644
--- a/dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html
+++ b/dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,20 @@
   <div class="headertitle"><div class="title">ssd_split_embeddings_cache Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html">ssd_split_embeddings_cache_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="ssd__split__table__batched__embeddings_8cpp.html">ssd_split_table_batched_embeddings.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="ssd__table__batched__embeddings_8h.html">ssd_table_batched_embeddings.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html b/dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html
index 259828557..d30f73c7b 100644
--- a/dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html
+++ b/dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,28 @@
   <div class="headertitle"><div class="title">permute_pooled_embedding_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__function_8cpp.html">permute_pooled_embedding_function.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops_8cu.html">permute_pooled_embedding_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html">permute_pooled_embedding_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html">permute_pooled_embedding_ops_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__split_8cu.html">permute_pooled_embedding_ops_split.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html">permute_pooled_embedding_ops_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html">permute_pooled_embedding_ops_split_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_5f55f9fa3600c80e31b55cfa7be0ede8.html b/dir_5f55f9fa3600c80e31b55cfa7be0ede8.html
new file mode 100644
index 000000000..1e95cadd9
--- /dev/null
+++ b/dir_5f55f9fa3600c80e31b55cfa7be0ede8.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles/3.28.1 Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li><li class="navelem"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">3.28.1 Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_dfdf575eb5c21ea09ad9fb656efb7738.html">CompilerIdC</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_d8fa031c2715d8d52539c7e4d4cc6d73.html">CompilerIdCXX</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_68267d1309a1af8e8297ef4c3efbcdba.html b/dir_68267d1309a1af8e8297ef4c3efbcdba.html
index 9548a1cfb..a005ef73b 100644
--- a/dir_68267d1309a1af8e8297ef4c3efbcdba.html
+++ b/dir_68267d1309a1af8e8297ef4c3efbcdba.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -105,11 +107,18 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html">ssd_split_embeddings_cache</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="histogram__binning__calibration__ops_8cu.html">histogram_binning_calibration_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="topology__utils_8cpp.html">topology_utils.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_7171c7990335cc008eec7387f12fe0ea.html b/dir_7171c7990335cc008eec7387f12fe0ea.html
index 81413c0a4..26373ad71 100644
--- a/dir_7171c7990335cc008eec7387f12fe0ea.html
+++ b/dir_7171c7990335cc008eec7387f12fe0ea.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/embedding_inplace_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,22 @@
   <div class="headertitle"><div class="title">embedding_inplace_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__inplace__update_8cu.html">embedding_inplace_update.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__inplace__update__cpu_8cpp.html">embedding_inplace_update_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__inplace__update__gpu_8cpp.html">embedding_inplace_update_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__inplace__update__test_8cpp.html">embedding_inplace_update_test.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_7caac3cc36f516c287d0977dc87384a8.html b/dir_7caac3cc36f516c287d0977dc87384a8.html
index 11695890a..2caf07a07 100644
--- a/dir_7caac3cc36f516c287d0977dc87384a8.html
+++ b/dir_7caac3cc36f516c287d0977dc87384a8.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,36 @@
   <div class="headertitle"><div class="title">quantize_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__bfloat16_8cu.html">quantize_bfloat16.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__fp8__rowwise_8cu.html">quantize_fp8_rowwise.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__fused__8bit__rowwise_8cu.html">quantize_fused_8bit_rowwise.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__fused__nbit__rowwise_8cu.html">quantize_fused_nbit_rowwise.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__hfp8_8cu.html">quantize_hfp8.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__msfp_8cu.html">quantize_msfp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops__cpu_8cpp.html">quantize_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops__gpu_8cpp.html">quantize_ops_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops__meta_8cpp.html">quantize_ops_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__padded__fp8__rowwise_8cu.html">quantize_padded_fp8_rowwise.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_7ce412f9e32e10e58164510708821927.html b/dir_7ce412f9e32e10e58164510708821927.html
index f6874a3c8..1db14c209 100644
--- a/dir_7ce412f9e32e10e58164510708821927.html
+++ b/dir_7ce412f9e32e10e58164510708821927.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,48 @@
   <div class="headertitle"><div class="title">split_embeddings_cache Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lfu__cache__find_8cu.html">lfu_cache_find.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lfu__cache__populate_8cu.html">lfu_cache_populate.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lfu__cache__populate__byte_8cpp.html">lfu_cache_populate_byte.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lfu__cache__populate__byte_8cu.html">lfu_cache_populate_byte.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="linearize__cache__indices_8cpp.html">linearize_cache_indices.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="linearize__cache__indices_8cu.html">linearize_cache_indices.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lru__cache__find_8cu.html">lru_cache_find.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lru__cache__populate_8cu.html">lru_cache_populate.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lru__cache__populate__byte_8cpp.html">lru_cache_populate_byte.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lru__cache__populate__byte_8cu.html">lru_cache_populate_byte.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lxu__cache_8cpp.html">lxu_cache.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="lxu__cache_8cu.html">lxu_cache.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="reset__weight__momentum_8cu.html">reset_weight_momentum.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__cache__ops_8cpp.html">split_embeddings_cache_ops.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__cache__ops_8cu.html">split_embeddings_cache_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_828e33ae11ea9ec04ffe6e59c52eef6d.html b/dir_828e33ae11ea9ec04ffe6e59c52eef6d.html
index ec7ff4afc..17025861e 100644
--- a/dir_828e33ae11ea9ec04ffe6e59c52eef6d.html
+++ b/dir_828e33ae11ea9ec04ffe6e59c52eef6d.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,62 @@
   <div class="headertitle"><div class="title">sparse_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__async__cumsum_8cu.html">sparse_async_cumsum.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__batched__unary__embeddings_8cu.html">sparse_batched_unary_embeddings.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__block__bucketize__features_8cu.html">sparse_block_bucketize_features.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__bucketize__features_8cu.html">sparse_bucketize_features.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__compute__frequency__sequence_8cu.html">sparse_compute_frequency_sequence.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__expand__into__jagged__permute_8cu.html">sparse_expand_into_jagged_permute.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__group__index_8cu.html">sparse_group_index.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__index__add_8cu.html">sparse_index_add.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__index__select_8cu.html">sparse_index_select.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__invert__permute_8cu.html">sparse_invert_permute.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops__cpu_8cpp.html">sparse_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops__gpu_8cpp.html">sparse_ops_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops__meta_8cpp.html">sparse_ops_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__pack__segments__backward_8cu.html">sparse_pack_segments_backward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__pack__segments__forward_8cu.html">sparse_pack_segments_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__permute102_8cu.html">sparse_permute102.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__permute__1d_8cu.html">sparse_permute_1d.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__permute__2d_8cu.html">sparse_permute_2d.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__permute__embeddings_8cu.html">sparse_permute_embeddings.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__range_8cu.html">sparse_range.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__reorder__batched__ad_8cu.html">sparse_reorder_batched_ad.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__segment__sum__csr_8cu.html">sparse_segment_sum_csr.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__zipf_8cu.html">sparse_zipf.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_897ef76b26d94e0feb8fb6e0621cd742.html b/dir_897ef76b26d94e0feb8fb6e0621cd742.html
index c23b4b1dd..84a956220 100644
--- a/dir_897ef76b26d94e0feb8fb6e0621cd742.html
+++ b/dir_897ef76b26d94e0feb8fb6e0621cd742.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/layout_transform_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,20 @@
   <div class="headertitle"><div class="title">layout_transform_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="layout__transform__ops_8cu.html">layout_transform_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="layout__transform__ops__cpu_8cpp.html">layout_transform_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="layout__transform__ops__gpu_8cpp.html">layout_transform_ops_gpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_a27d41c4018669c20f452802c44efb2d.html b/dir_a27d41c4018669c20f452802c44efb2d.html
new file mode 100644
index 000000000..098d83b1e
--- /dev/null
+++ b/dir_a27d41c4018669c20f452802c44efb2d.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12 Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">linux-x86_64-3.12 Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_a36c4719283424f51e58ca3678e5dea3.html b/dir_a36c4719283424f51e58ca3678e5dea3.html
new file mode 100644
index 000000000..e90092224
--- /dev/null
+++ b/dir_a36c4719283424f51e58ca3678e5dea3.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/bench Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_a36c4719283424f51e58ca3678e5dea3.html">bench</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">bench Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="verify__fp16__stochastic__benchmark_8cu.html">verify_fp16_stochastic_benchmark.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_a88d368584008a90df396d91e5b8b095.html b/dir_a88d368584008a90df396d91e5b8b095.html
index 6e2f3eb17..4002ae48d 100644
--- a/dir_a88d368584008a90df396d91e5b8b095.html
+++ b/dir_a88d368584008a90df396d91e5b8b095.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,60 @@
   <div class="headertitle"><div class="title">jagged_tensor_ops Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html">batched_dense_vec_jagged_2d_mul_backward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html">batched_dense_vec_jagged_2d_mul_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dense__to__jagged__forward_8cu.html">dense_to_jagged_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__dense__bmm__forward_8cu.html">jagged_dense_bmm_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html">jagged_dense_elementwise_mul_backward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html">jagged_dense_elementwise_mul_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__index__add__2d__forward_8cu.html">jagged_index_add_2d_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__index__select__2d__forward_8cu.html">jagged_index_select_2d_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__jagged__bmm__forward_8cu.html">jagged_jagged_bmm_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__softmax__backward_8cu.html">jagged_softmax_backward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__softmax__forward_8cu.html">jagged_softmax_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__tensor__ops_8cu.html">jagged_tensor_ops.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__tensor__ops__autograd_8cpp.html">jagged_tensor_ops_autograd.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__tensor__ops__cpu_8cpp.html">jagged_tensor_ops_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__tensor__ops__meta_8cpp.html">jagged_tensor_ops_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__to__padded__dense__backward_8cu.html">jagged_to_padded_dense_backward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__to__padded__dense__forward_8cu.html">jagged_to_padded_dense_forward.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="jagged__unique__indices_8cu.html">jagged_unique_indices.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="keyed__jagged__index__select__dim1_8cu.html">keyed_jagged_index_select_dim1.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="stacked__jagged__1d__to__dense_8cu.html">stacked_jagged_1d_to_dense.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="stacked__jagged__2d__to__dense_8cu.html">stacked_jagged_2d_to_dense.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_ae8e6ef04f6eeb9549906760d0097e6e.html b/dir_ae8e6ef04f6eeb9549906760d0097e6e.html
new file mode 100644
index 000000000..b1994b73a
--- /dev/null
+++ b/dir_ae8e6ef04f6eeb9549906760d0097e6e.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">CMakeFiles Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_b4b8bd075f03e0fff4167d5f80e92046.html b/dir_b4b8bd075f03e0fff4167d5f80e92046.html
new file mode 100644
index 000000000..819e44827
--- /dev/null
+++ b/dir_b4b8bd075f03e0fff4167d5f80e92046.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">_skbuild Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_cafe9c3a34c8f467f9ca81fe4c33c741.html b/dir_cafe9c3a34c8f467f9ca81fe4c33c741.html
index 5c99d6ec3..b699faac4 100644
--- a/dir_cafe9c3a34c8f467f9ca81fe4c33c741.html
+++ b/dir_cafe9c3a34c8f467f9ca81fe4c33c741.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -76,10 +78,72 @@
   <div class="headertitle"><div class="title">fbgemm_gpu Directory Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="bench__utils_8cuh.html">bench_utils.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cpu__utils_8h.html">cpu_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cub__namespace__postfix_8cuh.html">cub_namespace_postfix.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cub__namespace__prefix_8cuh.html">cub_namespace_prefix.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cuda__utils_8cuh.html">cuda_utils.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cumem__utils_8h.html">cumem_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dispatch__macros_8h.html">dispatch_macros.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__backward__template__helpers_8cuh.html">embedding_backward_template_helpers.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__common_8h.html">embedding_common.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="embedding__inplace__update_8h.html">embedding_inplace_update.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="enum__utils_8h.html">enum_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="input__combine_8h.html">input_combine.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="layout__transform__ops_8cuh.html">layout_transform_ops.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="merge__pooled__embeddings_8h.html">merge_pooled_embeddings.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="ops__utils_8h.html">ops_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops_8h.html">permute_pooled_embedding_ops.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embedding__ops__split_8h.html">permute_pooled_embedding_ops_split.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embs__function_8h.html">permute_pooled_embs_function.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="permute__pooled__embs__function__split_8h.html">permute_pooled_embs_function_split.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops_8cuh.html">quantize_ops.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="quantize__ops__utils_8h.html">quantize_ops_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops_8cuh.html">sparse_ops.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops_8h.html">sparse_ops.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__cache__cuda_8cuh.html">split_embeddings_cache_cuda.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="split__embeddings__utils_8cuh.html">split_embeddings_utils.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="topology__utils_8h.html">topology_utils.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_d42b091ea9351334e82212d21cbafb15.html b/dir_d42b091ea9351334e82212d21cbafb15.html
new file mode 100644
index 000000000..9a00f8981
--- /dev/null
+++ b/dir_d42b091ea9351334e82212d21cbafb15.html
@@ -0,0 +1,600 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">cmake-build Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="subdirs" name="subdirs"></a>
+Directories</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="iconfclosed"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html">gen_batch_index_select_dim0_backward_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html">gen_batch_index_select_dim0_backward_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html">gen_batch_index_select_dim0_forward_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html">gen_batch_index_select_dim0_forward_kernel_small.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html">gen_embedding_backward_adagrad_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html">gen_embedding_backward_adam_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html">gen_embedding_backward_adam_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html">gen_embedding_backward_dense_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html">gen_embedding_backward_dense_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html">gen_embedding_backward_dense_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html">gen_embedding_backward_lamb_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html">gen_embedding_backward_none_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html">gen_embedding_backward_none_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html">gen_embedding_backward_sgd_split_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html">gen_embedding_backward_sgd_split_weighted_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html">gen_embedding_backward_split_adagrad.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html">gen_embedding_backward_split_adagrad_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__adam_8cpp.html">gen_embedding_backward_split_adam.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__adam__cpu_8cpp.html">gen_embedding_backward_split_adam_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html">gen_embedding_backward_split_approx_sgd.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__approx__sgd__cpu_8cpp.html">gen_embedding_backward_split_approx_sgd_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__grad_8cu.html">gen_embedding_backward_split_grad.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__lamb_8cpp.html">gen_embedding_backward_split_lamb.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__lamb__cpu_8cpp.html">gen_embedding_backward_split_lamb_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html">gen_embedding_backward_split_lars_sgd.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__lars__sgd__cpu_8cpp.html">gen_embedding_backward_split_lars_sgd_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__none_8cpp.html">gen_embedding_backward_split_none.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__none__cpu_8cpp.html">gen_embedding_backward_split_none_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html">gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html">gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html">gen_embedding_backward_split_rowwise_adagrad.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__sgd_8cpp.html">gen_embedding_backward_split_sgd.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html">gen_embedding_backward_split_sgd_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html">gen_embedding_forward_dense_unweighted_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html">gen_embedding_forward_dense_weighted_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html">gen_embedding_forward_split_unweighted_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html">gen_embedding_forward_split_weighted_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html">gen_embedding_forward_split_weighted_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html">gen_embedding_forward_split_weighted_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html">gen_embedding_forward_split_weighted_v2_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html">gen_embedding_forward_split_weighted_vbe_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__dense__split__device__kernel_8cuh.html">gen_embedding_optimizer_dense_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__none__split__device__kernel_8cuh.html">gen_embedding_optimizer_none_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_d44c64559bbebec7f509842c48db8b23.html b/dir_d44c64559bbebec7f509842c48db8b23.html
index 66168594b..193507815 100644
--- a/dir_d44c64559bbebec7f509842c48db8b23.html
+++ b/dir_d44c64559bbebec7f509842c48db8b23.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include Directory Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -85,7 +87,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/dir_d8fa031c2715d8d52539c7e4d4cc6d73.html b/dir_d8fa031c2715d8d52539c7e4d4cc6d73.html
new file mode 100644
index 000000000..519114c5b
--- /dev/null
+++ b/dir_d8fa031c2715d8d52539c7e4d4cc6d73.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles/3.28.1/CompilerIdCXX Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li><li class="navelem"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></li><li class="navelem"><a class="el" href="dir_d8fa031c2715d8d52539c7e4d4cc6d73.html">CompilerIdCXX</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">CompilerIdCXX Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html">CMakeCXXCompilerId.cpp</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dir_dfdf575eb5c21ea09ad9fb656efb7738.html b/dir_dfdf575eb5c21ea09ad9fb656efb7738.html
new file mode 100644
index 000000000..62edfb6b2
--- /dev/null
+++ b/dir_dfdf575eb5c21ea09ad9fb656efb7738.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/CMakeFiles/3.28.1/CompilerIdC Directory Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li><li class="navelem"><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html">CMakeFiles</a></li><li class="navelem"><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html">3.28.1</a></li><li class="navelem"><a class="el" href="dir_dfdf575eb5c21ea09ad9fb656efb7738.html">CompilerIdC</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">CompilerIdC Directory Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="files" name="files"></a>
+Files</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><span class="icondoc"></span>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="_c_make_c_compiler_id_8c.html">CMakeCCompilerId.c</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/dispatch__macros_8h.html b/dispatch__macros_8h.html
new file mode 100644
index 000000000..d6ea0d315
--- /dev/null
+++ b/dispatch__macros_8h.html
@@ -0,0 +1,621 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/dispatch_macros.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">dispatch_macros.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;torch/library.h&gt;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a8a3aad8de22734b1397d813a855528e1" name="a8a3aad8de22734b1397d813a855528e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a3aad8de22734b1397d813a855528e1">&#9670;&#160;</a></span>_DISPATCH_EMB_CACHE_TYPES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define _DISPATCH_EMB_CACHE_TYPES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">emb_enum_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">cache_enum_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  at::ScalarType _emb_t = ::detail::scalar_type(emb_enum_type);               \</div>
+<div class="line">  at::ScalarType _cache_t = ::detail::scalar_type(cache_enum_type);           \</div>
+<div class="line">  switch (_emb_t) {                                                           \</div>
+<div class="line">    PRIVATE_CASE_TYPE_EMB(                                                    \</div>
+<div class="line">        at::ScalarType::Byte, _cache_t, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, NAME, __VA_ARGS__)           \</div>
+<div class="line">    PRIVATE_CASE_TYPE_EMB(                                                    \</div>
+<div class="line">        at::ScalarType::Float, _cache_t, <span class="keywordtype">float</span>, NAME, __VA_ARGS__)            \</div>
+<div class="line">    PRIVATE_CASE_TYPE_EMB(                                                    \</div>
+<div class="line">        at::ScalarType::Half, _cache_t, at::Half, NAME, __VA_ARGS__)          \</div>
+<div class="line">    <span class="keywordflow">default</span>:                                                                  \</div>
+<div class="line">      AT_ERROR(#NAME, <span class="stringliteral">&quot; not implemented for emb_t &#39;&quot;</span>, toString(_emb_t), <span class="stringliteral">&quot;&#39;&quot;</span>); \</div>
+<div class="line">  }</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">template uint8_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1240</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a8f06a63f75524d1985d76648b0fcf990" name="a8f06a63f75524d1985d76648b0fcf990"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f06a63f75524d1985d76648b0fcf990">&#9670;&#160;</a></span>DISPATCH_EMB_CACHE_OUTPUT_TYPES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_EMB_CACHE_OUTPUT_TYPES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">EMB_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OUTPUT_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4599e1c46b6eb357145dd791c6ae5c9" name="ac4599e1c46b6eb357145dd791c6ae5c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4599e1c46b6eb357145dd791c6ae5c9">&#9670;&#160;</a></span>DISPATCH_EMB_CACHE_TYPES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_EMB_CACHE_TYPES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">EMB_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; emb_type = EMB_TYPE;                                   \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; cache_type = CACHE_TYPE;                               \</div>
+<div class="line">    _DISPATCH_EMB_CACHE_TYPES(emb_type, cache_type, NAME, __VA_ARGS__) \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a10b99a9b7edecc89f4558ba0cf37c0ee" name="a10b99a9b7edecc89f4558ba0cf37c0ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10b99a9b7edecc89f4558ba0cf37c0ee">&#9670;&#160;</a></span>DISPATCH_EMB_GRAD_CACHE_TYPES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_EMB_GRAD_CACHE_TYPES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">EMB_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">GRAD_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; emb_type = EMB_TYPE;                                           \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; grad_type = GRAD_TYPE;                                         \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; cache_type = CACHE_TYPE;                                       \</div>
+<div class="line">    at::ScalarType _emb_t = ::detail::scalar_type(emb_type);                   \</div>
+<div class="line">    at::ScalarType _grad_t = ::detail::scalar_type(grad_type);                 \</div>
+<div class="line">    at::ScalarType _cache_t = ::detail::scalar_type(cache_type);               \</div>
+<div class="line">    switch (_grad_t) {                                                         \</div>
+<div class="line">      PRIVATE_CASE_TYPE_CACHE_EMB(                                             \</div>
+<div class="line">          at::ScalarType::Float, _cache_t, _emb_t, <span class="keywordtype">float</span>, NAME, __VA_ARGS__)   \</div>
+<div class="line">      PRIVATE_CASE_TYPE_CACHE_EMB(                                             \</div>
+<div class="line">          at::ScalarType::Half, _cache_t, _emb_t, at::Half, NAME, __VA_ARGS__) \</div>
+<div class="line">      <span class="keywordflow">default</span>:                                                                 \</div>
+<div class="line">        AT_ERROR(                                                              \</div>
+<div class="line">            #NAME, <span class="stringliteral">&quot; not implemented for grad_t &#39;&quot;</span>, toString(_grad_t), <span class="stringliteral">&quot;&#39;&quot;</span>);   \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a91c270ea1cbf887747abbaf8883b7175" name="a91c270ea1cbf887747abbaf8883b7175"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91c270ea1cbf887747abbaf8883b7175">&#9670;&#160;</a></span>DISPATCH_OUTPUT_TYPES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OUTPUT_TYPES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OUTPUT_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                      \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span>&amp; output_type = OUTPUT_TYPE;                                   \</div>
+<div class="line">    at::ScalarType _output_t = ::detail::scalar_type(output_type);           \</div>
+<div class="line">    switch (_output_t) {                                                     \</div>
+<div class="line">      PRIVATE_CASE_TYPE_OUTPUT2(at::ScalarType::Half, at::Half, __VA_ARGS__) \</div>
+<div class="line">      PRIVATE_CASE_TYPE_OUTPUT2(                                             \</div>
+<div class="line">          at::ScalarType::BFloat16, at::BFloat16, __VA_ARGS__)               \</div>
+<div class="line">      PRIVATE_CASE_TYPE_OUTPUT2(at::ScalarType::Float, <span class="keywordtype">float</span>, __VA_ARGS__)   \</div>
+<div class="line">      PRIVATE_CASE_TYPE_OUTPUT2(at::ScalarType::Byte, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, __VA_ARGS__)  \</div>
+<div class="line">      <span class="keywordflow">default</span>:                                                               \</div>
+<div class="line">        AT_ERROR(                                                            \</div>
+<div class="line">            #NAME,                                                           \</div>
+<div class="line">            <span class="stringliteral">&quot; not implemented for output_t &#39;&quot;</span>,                               \</div>
+<div class="line">            toString(_output_t),                                             \</div>
+<div class="line">            <span class="stringliteral">&quot;&#39;&quot;</span>);                                                            \</div>
+<div class="line">    }                                                                        \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a6db9b7506116844ae45993577c3b9ac4" name="a6db9b7506116844ae45993577c3b9ac4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6db9b7506116844ae45993577c3b9ac4">&#9670;&#160;</a></span>FBGEMM_DISPATCH_FLOAT_AND_HALF</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_DISPATCH_FLOAT_AND_HALF</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  AT_DISPATCH_SWITCH(                                   \</div>
+<div class="line">      TYPE, NAME, <a class="code hl_define" href="#a60faa23c8d1bf9d75a2e598a5654ecff">FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE</a>(__VA_ARGS__))</div>
+<div class="ttc" id="adispatch__macros_8h_html_a60faa23c8d1bf9d75a2e598a5654ecff"><div class="ttname"><a href="#a60faa23c8d1bf9d75a2e598a5654ecff">FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE</a></div><div class="ttdeci">#define FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE(...)</div><div class="ttdef"><b>Definition</b> dispatch_macros.h:192</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a60faa23c8d1bf9d75a2e598a5654ecff" name="a60faa23c8d1bf9d75a2e598a5654ecff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60faa23c8d1bf9d75a2e598a5654ecff">&#9670;&#160;</a></span>FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  AT_DISPATCH_CASE(at::ScalarType::Float, __VA_ARGS__) \</div>
+<div class="line">  AT_DISPATCH_CASE(at::ScalarType::Half, __VA_ARGS__)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ab9329efe2d7882cbc2bd358b6672c292" name="ab9329efe2d7882cbc2bd358b6672c292"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab9329efe2d7882cbc2bd358b6672c292">&#9670;&#160;</a></span>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  AT_DISPATCH_SWITCH(                                            \</div>
+<div class="line">      TYPE, NAME, <a class="code hl_define" href="#a7c7e35b09a14b3d5b76339803712ce7e">FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE</a>(__VA_ARGS__))</div>
+<div class="ttc" id="adispatch__macros_8h_html_a7c7e35b09a14b3d5b76339803712ce7e"><div class="ttname"><a href="#a7c7e35b09a14b3d5b76339803712ce7e">FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE</a></div><div class="ttdeci">#define FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE(...)</div><div class="ttdef"><b>Definition</b> dispatch_macros.h:196</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a7c7e35b09a14b3d5b76339803712ce7e" name="a7c7e35b09a14b3d5b76339803712ce7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c7e35b09a14b3d5b76339803712ce7e">&#9670;&#160;</a></span>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="#a60faa23c8d1bf9d75a2e598a5654ecff">FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE</a>(__VA_ARGS__)        \</div>
+<div class="line">  AT_DISPATCH_CASE(at::ScalarType::BFloat16, __VA_ARGS__)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ab66dce26ee489c79f3a0441be14902fa" name="ab66dce26ee489c79f3a0441be14902fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab66dce26ee489c79f3a0441be14902fa">&#9670;&#160;</a></span>PRIVATE_CASE_TYPE_CACHE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PRIVATE_CASE_TYPE_CACHE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">enum_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">case</span> enum_type: {                                   \</div>
+<div class="line">    <span class="keyword">using </span>cache_t = type;                             \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                             \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a98d43954b688bc60b943227d761487b3" name="a98d43954b688bc60b943227d761487b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98d43954b688bc60b943227d761487b3">&#9670;&#160;</a></span>PRIVATE_CASE_TYPE_CACHE_EMB</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PRIVATE_CASE_TYPE_CACHE_EMB</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">grad_enum_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">_cache_t, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">_emb_t, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">grad_cxx_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">case</span> grad_enum_type: {                                                   \</div>
+<div class="line">    <span class="keyword">using </span>grad_t = grad_cxx_type;                                          \</div>
+<div class="line">    switch (_emb_t) {                                                      \</div>
+<div class="line">      PRIVATE_CASE_TYPE_EMB(                                               \</div>
+<div class="line">          at::ScalarType::Byte, _cache_t, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, NAME, __VA_ARGS__)      \</div>
+<div class="line">      PRIVATE_CASE_TYPE_EMB(                                               \</div>
+<div class="line">          at::ScalarType::Float, _cache_t, <span class="keywordtype">float</span>, NAME, __VA_ARGS__)       \</div>
+<div class="line">      PRIVATE_CASE_TYPE_EMB(                                               \</div>
+<div class="line">          at::ScalarType::Half, _cache_t, at::Half, NAME, __VA_ARGS__)     \</div>
+<div class="line">      <span class="keywordflow">default</span>:                                                             \</div>
+<div class="line">        AT_ERROR(                                                          \</div>
+<div class="line">            #NAME, <span class="stringliteral">&quot; not implemented for emb_t &#39;&quot;</span>, toString(_emb_t), <span class="stringliteral">&quot;&#39;&quot;</span>); \</div>
+<div class="line">    }                                                                      \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="af2c9e16b5345c0cdb6611357e0ec15db" name="af2c9e16b5345c0cdb6611357e0ec15db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2c9e16b5345c0cdb6611357e0ec15db">&#9670;&#160;</a></span>PRIVATE_CASE_TYPE_EMB</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PRIVATE_CASE_TYPE_EMB</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">enum_type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">enum_type2, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">case</span> enum_type1: {                                                       \</div>
+<div class="line">    <span class="keyword">using </span>emb_t = type1;                                                   \</div>
+<div class="line">    switch (enum_type2) {                                                  \</div>
+<div class="line">      PRIVATE_CASE_TYPE_CACHE(at::ScalarType::Float, <span class="keywordtype">float</span>, __VA_ARGS__)   \</div>
+<div class="line">      PRIVATE_CASE_TYPE_CACHE(at::ScalarType::Half, at::Half, __VA_ARGS__) \</div>
+<div class="line">      <span class="keywordflow">default</span>:                                                             \</div>
+<div class="line">        AT_ERROR(                                                          \</div>
+<div class="line">            #NAME,                                                         \</div>
+<div class="line">            <span class="stringliteral">&quot; not implemented for cache_t &#39;&quot;</span>,                              \</div>
+<div class="line">            toString(enum_type2),                                          \</div>
+<div class="line">            <span class="stringliteral">&quot;&#39;&quot;</span>);                                                          \</div>
+<div class="line">    }                                                                      \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a3905d2ceab136e10c35a2ff4fe29a7d0" name="a3905d2ceab136e10c35a2ff4fe29a7d0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3905d2ceab136e10c35a2ff4fe29a7d0">&#9670;&#160;</a></span>PRIVATE_CASE_TYPE_OUTPUT</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PRIVATE_CASE_TYPE_OUTPUT</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">output_enum_type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">emb_enum_type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">cache_enum_type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">output_type1, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">case</span> output_enum_type1: {                                  \</div>
+<div class="line">    <span class="keyword">using </span>output_t = output_type1;                           \</div>
+<div class="line">    _DISPATCH_EMB_CACHE_TYPES(                               \</div>
+<div class="line">        emb_enum_type1, cache_enum_type1, NAME, __VA_ARGS__) \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a17577aa7f884011133210418a790641a" name="a17577aa7f884011133210418a790641a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17577aa7f884011133210418a790641a">&#9670;&#160;</a></span>PRIVATE_CASE_TYPE_OUTPUT2</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PRIVATE_CASE_TYPE_OUTPUT2</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">enum_type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">type, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">case</span> enum_type: {                                     \</div>
+<div class="line">    <span class="keyword">using </span>output_t = type;                              \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                               \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a3b8ceecef1ba0067d90eea1764298cda" name="a3b8ceecef1ba0067d90eea1764298cda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b8ceecef1ba0067d90eea1764298cda">&#9670;&#160;</a></span>PT2_COMPLIANT_TAG</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define PT2_COMPLIANT_TAG</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/doxygen.css b/doxygen.css
index 009a9b554..7b7d851b8 100644
--- a/doxygen.css
+++ b/doxygen.css
@@ -1,4 +1,4 @@
-/* The standard CSS for doxygen 1.9.8*/
+/* The standard CSS for doxygen 1.10.0*/
 
 html {
 /* page base colors */
@@ -145,6 +145,7 @@ html {
 --fragment-lineno-link-bg-color: #D8D8D8;
 --fragment-lineno-link-hover-fg-color: #4665A2;
 --fragment-lineno-link-hover-bg-color: #C8C8C8;
+--fragment-copy-ok-color: #2EC82E;
 --tooltip-foreground-color: black;
 --tooltip-background-color: white;
 --tooltip-border-color: gray;
@@ -168,6 +169,28 @@ html {
 --font-family-icon: Arial,Helvetica;
 --font-family-tooltip: Roboto,sans-serif;
 
+/** special sections */
+--warning-color-bg: #f8d1cc;
+--warning-color-hl: #b61825;
+--warning-color-text: #75070f;
+--note-color-bg: #faf3d8;
+--note-color-hl: #f3a600;
+--note-color-text: #5f4204;
+--todo-color-bg: #e4f3ff;
+--todo-color-hl: #1879C4;
+--todo-color-text: #274a5c;
+--test-color-bg: #e8e8ff;
+--test-color-hl: #3939C4;
+--test-color-text: #1a1a5c;
+--deprecated-color-bg: #ecf0f3;
+--deprecated-color-hl: #5b6269;
+--deprecated-color-text: #43454a;
+--bug-color-bg: #e4dafd;
+--bug-color-hl: #5b2bdd;
+--bug-color-text: #2a0d72;
+--invariant-color-bg: #d8f1e3;
+--invariant-color-hl: #44b86f;
+--invariant-color-text: #265532;
 }
 
 @media (prefers-color-scheme: dark) {
@@ -309,7 +332,7 @@ html {
 --code-link-color: #79C0FF;
 --code-external-link-color: #79C0FF;
 --fragment-foreground-color: #C9D1D9;
---fragment-background-color: black;
+--fragment-background-color: #090D16;
 --fragment-border-color: #30363D;
 --fragment-lineno-border-color: #30363D;
 --fragment-lineno-background-color: black;
@@ -318,6 +341,7 @@ html {
 --fragment-lineno-link-bg-color: #303030;
 --fragment-lineno-link-hover-fg-color: #8E96A1;
 --fragment-lineno-link-hover-bg-color: #505050;
+--fragment-copy-ok-color: #0EA80E;
 --tooltip-foreground-color: #C9D1D9;
 --tooltip-background-color: #202020;
 --tooltip-border-color: #C9D1D9;
@@ -341,6 +365,28 @@ html {
 --font-family-icon: Arial,Helvetica;
 --font-family-tooltip: Roboto,sans-serif;
 
+/** special sections */
+--warning-color-bg: #2e1917;
+--warning-color-hl: #ad2617;
+--warning-color-text: #f5b1aa;
+--note-color-bg: #3b2e04;
+--note-color-hl: #f1b602;
+--note-color-text: #ceb670;
+--todo-color-bg: #163750;
+--todo-color-hl: #1982D2;
+--todo-color-text: #dcf0fa;
+--test-color-bg: #121258;
+--test-color-hl: #4242cf;
+--test-color-text: #c0c0da;
+--deprecated-color-bg: #2e323b;
+--deprecated-color-hl: #738396;
+--deprecated-color-text: #abb0bd;
+--bug-color-bg: #2a2536;
+--bug-color-hl: #7661b3;
+--bug-color-text: #ae9ed6;
+--invariant-color-bg: #303a35;
+--invariant-color-hl: #76ce96;
+--invariant-color-text: #cceed5;
 }}
 body {
     background-color: var(--page-background-color);
@@ -357,8 +403,6 @@ body, table, div, p, dl {
 /* @group Heading Levels */
 
 .title {
-	font-weight: 400;
-	font-size: 14px;
 	font-family: var(--font-family-normal);
 	line-height: 28px;
 	font-size: 150%;
@@ -556,7 +600,13 @@ a {
 }
 
 a:hover {
-	text-decoration: underline;
+	text-decoration: none;
+	background:   linear-gradient(to bottom, transparent 0,transparent calc(100% - 1px), currentColor 100%);
+}
+
+a:hover > span.arrow {
+        text-decoration: none;
+        background : var(--nav-background-color);
 }
 
 a.el {
@@ -632,30 +682,63 @@ ul.multicol {
 .fragment {
   text-align: left;
   direction: ltr;
-  overflow-x: auto; /*Fixed: fragment lines overlap floating elements*/
+  overflow-x: auto;
   overflow-y: hidden;
+  position: relative;
+  min-height: 12px;
+  margin: 10px 0px;
+  padding: 10px 10px;
+  border: 1px solid var(--fragment-border-color);
+  border-radius: 4px;
+  background-color: var(--fragment-background-color);
+  color: var(--fragment-foreground-color);
 }
 
 pre.fragment {
-        border: 1px solid var(--fragment-border-color);
-        background-color: var(--fragment-background-color);
-	color: var(--fragment-foreground-color);
-        padding: 4px 6px;
-        margin: 4px 8px 4px 2px;
+  word-wrap: break-word;
+  font-size:  10pt;
+  line-height: 125%;
+  font-family: var(--font-family-monospace);
+}
+
+.clipboard {
+        width: 24px;
+        height: 24px;
+        right: 5px;
+        top: 5px;
+        opacity: 0;
+        position: absolute;
+        display: inline;
         overflow: auto;
-        word-wrap: break-word;
-        font-size:  9pt;
-        line-height: 125%;
-        font-family: var(--font-family-monospace);
-        font-size: 105%;
+        fill: var(--fragment-foreground-color);
+        justify-content: center;
+        align-items: center;
+        cursor: pointer;
+}
+
+.clipboard.success {
+        border: 1px solid var(--fragment-foreground-color);
+        border-radius: 4px;
+}
+
+.fragment:hover .clipboard, .clipboard.success {
+        opacity: .28;
+}
+
+.clipboard:hover, .clipboard.success {
+        opacity: 1 !important;
+}
+
+.clipboard:active:not([class~=success]) svg {
+        transform: scale(.91);
+}
+
+.clipboard.success svg {
+        fill: var(--fragment-copy-ok-color);
 }
 
-div.fragment {
-	padding: 0 0 1px 0; /*Fixed: last line underline overlap border*/
-	margin: 4px 8px 4px 2px;
-	color: var(--fragment-foreground-color);
-	background-color: var(--fragment-background-color);
-	border: 1px solid var(--fragment-border-color);
+.clipboard.success {
+        border-color: var(--fragment-copy-ok-color);
 }
 
 div.line {
@@ -778,10 +861,6 @@ img.light-mode-visible {
 	display: none;
 }
 
-img.formulaDsp {
-	
-}
-
 img.formulaInl, img.inline {
 	vertical-align: middle;
 }
@@ -1081,17 +1160,25 @@ dl.reflist dd {
 
 .paramtype {
 	white-space: nowrap;
+	padding: 0px;
+	padding-bottom: 1px;
 }
 
 .paramname {
-	color: var(--memdef-param-name-color);
 	white-space: nowrap;
+        padding: 0px;
+        padding-bottom: 1px;
+        margin-left: 2px;
 }
+
 .paramname em {
+	color: var(--memdef-param-name-color);
 	font-style: normal;
+	margin-right: 1px;
 }
-.paramname code {
-        line-height: 14px;
+
+.paramname .paramdefval {
+	font-family: var(--font-family-monospace);
 }
 
 .params, .retval, .exception, .tparams {
@@ -1425,7 +1512,6 @@ table.fieldtable {
 {
 	height:32px;
 	display:block;
-	text-decoration: none;
 	outline: none;
 	color: var(--nav-text-normal-color);
 	font-family: var(--font-family-nav);
@@ -1514,7 +1600,8 @@ dl {
         padding: 0 0 0 0;
 }
 
-/* dl.note, dl.warning, dl.attention, dl.pre, dl.post, dl.invariant, dl.deprecated, dl.todo, dl.test, dl.bug, dl.examples */
+/*
+
 dl.section {
 	margin-left: 0px;
 	padding-left: 0px;
@@ -1569,8 +1656,101 @@ dl.bug {
   border-color: #C08050;
 }
 
+*/
+
+dl.bug dt a, dl.deprecated dt a, dl.todo dt a, dl.test a {
+    font-weight: bold !important;
+}
+
+dl.warning, dl.attention, dl.note, dl.deprecated, dl.bug,
+dl.invariant, dl.pre, dl.post, dl.todo, dl.test, dl.remark {
+    padding: 10px;
+    margin: 10px 0px;
+    overflow: hidden;
+    margin-left: 0;
+    border-radius: 4px;
+}
+
 dl.section dd {
-	margin-bottom: 6px;
+    margin-bottom: 2px;
+}
+
+dl.warning, dl.attention {
+    background: var(--warning-color-bg);
+    border-left: 8px solid var(--warning-color-hl);
+    color: var(--warning-color-text);
+}
+
+dl.warning dt, dl.attention dt {
+    color: var(--warning-color-hl);
+}
+
+dl.note, dl.remark {
+    background: var(--note-color-bg);
+    border-left: 8px solid var(--note-color-hl);
+    color: var(--note-color-text);
+}
+
+dl.note dt, dl.remark dt {
+    color: var(--note-color-hl);
+}
+
+dl.todo {
+    background: var(--todo-color-bg);
+    border-left: 8px solid var(--todo-color-hl);
+    color: var(--todo-color-text);
+}
+
+dl.todo dt {
+    color: var(--todo-color-hl);
+}
+
+dl.test {
+    background: var(--test-color-bg);
+    border-left: 8px solid var(--test-color-hl);
+    color: var(--test-color-text);
+}
+
+dl.test dt {
+    color: var(--test-color-hl);
+}
+
+dl.bug dt a {
+    color: var(--bug-color-hl) !important;
+}
+
+dl.bug {
+    background: var(--bug-color-bg);
+    border-left: 8px solid var(--bug-color-hl);
+    color: var(--bug-color-text);
+}
+
+dl.bug dt a {
+    color: var(--bug-color-hl) !important;
+}
+
+dl.deprecated {
+    background: var(--deprecated-color-bg);
+    border-left: 8px solid var(--deprecated-color-hl);
+    color: var(--deprecated-color-text);
+}
+
+dl.deprecated dt a {
+    color: var(--deprecated-color-hl) !important;
+}
+
+dl.section dd, dl.bug dd, dl.deprecated dd, dl.todo dd, dl.test dd {
+    margin-inline-start: 0px;
+}
+
+dl.invariant, dl.pre, dl.post {
+    background: var(--invariant-color-bg);
+    border-left: 8px solid var(--invariant-color-hl);
+    color: var(--invariant-color-text);
+}
+
+dl.invariant dt, dl.pre dt, dl.post dt {
+    color: var(--invariant-color-hl);
 }
 
 
@@ -1585,12 +1765,12 @@ dl.section dd {
 	vertical-align: bottom;
 	border-collapse: separate;
 }
- 
+
 #projectlogo img
-{ 
+{
 	border: 0px none;
 }
- 
+
 #projectalign
 {
         vertical-align: middle;
diff --git a/doxygen_crawl.html b/doxygen_crawl.html
new file mode 100644
index 000000000..79709b9a4
--- /dev/null
+++ b/doxygen_crawl.html
@@ -0,0 +1,833 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<title>Validator / crawler helper</title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+</head>
+<body>
+<a href="_c_make_c_compiler_id_8c.html"/>
+<a href="_c_make_c_x_x_compiler_id_8cpp.html"/>
+<a href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html"/>
+<a href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html"/>
+<a href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html"/>
+<a href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html"/>
+<a href="gen__batch__index__select__dim0__forward__kernel_8cu.html"/>
+<a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__none__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html"/>
+<a href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html"/>
+<a href="gen__embedding__backward__split__adagrad_8cpp.html"/>
+<a href="gen__embedding__backward__split__adagrad__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__adam_8cpp.html"/>
+<a href="gen__embedding__backward__split__adam__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__sgd_8cpp.html"/>
+<a href="gen__embedding__backward__split__approx__sgd__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__grad_8cu.html"/>
+<a href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__backward__split__lamb_8cpp.html"/>
+<a href="gen__embedding__backward__split__lamb__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__lars__sgd_8cpp.html"/>
+<a href="gen__embedding__backward__split__lars__sgd__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__none_8cpp.html"/>
+<a href="gen__embedding__backward__split__none__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html"/>
+<a href="gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html"/>
+<a href="gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html"/>
+<a href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html"/>
+<a href="gen__embedding__backward__split__sgd_8cpp.html"/>
+<a href="gen__embedding__backward__split__sgd__cpu_8cpp.html"/>
+<a href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__dense__unweighted__kernel_8cu.html"/>
+<a href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html"/>
+<a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html"/>
+<a href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__dense__weighted__kernel_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html"/>
+<a href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html"/>
+<a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__split__unweighted__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__split__weighted__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html"/>
+<a href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html"/>
+<a href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html"/>
+<a href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html"/>
+<a href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__dense__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__none__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html"/>
+<a href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html"/>
+<a href="verify__fp16__stochastic__benchmark_8cu.html"/>
+<a href="batch__index__select__dim0__cpu__host_8cpp.html"/>
+<a href="batch__index__select__dim0__host_8cpp.html"/>
+<a href="embedding__backward__dense__host_8cpp.html"/>
+<a href="embedding__backward__dense__host__cpu_8cpp.html"/>
+<a href="embedding__backward__split__cpu__approx__template_8cpp.html"/>
+<a href="embedding__backward__split__cpu__template_8cpp.html"/>
+<a href="embedding__backward__split__grad__template_8cu.html"/>
+<a href="embedding__backward__split__host__cpu__template_8cpp.html"/>
+<a href="embedding__backward__split__host__template_8cpp.html"/>
+<a href="embedding__backward__split__indice__weights__template_8cu.html"/>
+<a href="embedding__backward__split__kernel__cta__template_8cu.html"/>
+<a href="embedding__backward__split__kernel__warp__template_8cu.html"/>
+<a href="embedding__backward__split__template_8cu.html"/>
+<a href="embedding__bounds__check_8cu.html"/>
+<a href="embedding__bounds__check__host_8cpp.html"/>
+<a href="embedding__bounds__check__host__cpu_8cpp.html"/>
+<a href="embedding__forward__quantized__cpu__template_8cpp.html"/>
+<a href="embedding__forward__quantized__host_8cpp.html"/>
+<a href="embedding__forward__quantized__host__cpu_8cpp.html"/>
+<a href="embedding__forward__quantized__split__lookup_8cu.html"/>
+<a href="embedding__forward__quantized__split__nbit__host__template_8cu.html"/>
+<a href="embedding__forward__quantized__split__nbit__kernel__template_8cu.html"/>
+<a href="embedding__forward__split__cpu_8cpp.html"/>
+<a href="embedding__forward__split__cpu_8h.html"/>
+<a href="embedding__forward__split__kernel__nobag__small__template_8cu.html"/>
+<a href="embedding__forward__split__kernel__template_8cu.html"/>
+<a href="embedding__forward__split__kernel__v2__template_8cu.html"/>
+<a href="embedding__forward__split__meta__template_8cpp.html"/>
+<a href="embedding__forward__split__template_8cu.html"/>
+<a href="embedding__forward__template__helpers_8cuh.html"/>
+<a href="embedding__op__registration_8h.html"/>
+<a href="embedding__ops__placeholder_8cpp.html"/>
+<a href="embedding__optimizer__split__device__kernel__template_8cuh.html"/>
+<a href="embedding__optimizer__split__host__template_8cpp.html"/>
+<a href="embedding__optimizer__split__kernel__template_8cu.html"/>
+<a href="embedding__optimizer__split__template_8cu.html"/>
+<a href="bench__utils_8cuh.html"/>
+<a href="cpu__utils_8h.html"/>
+<a href="cub__namespace__postfix_8cuh.html"/>
+<a href="cub__namespace__prefix_8cuh.html"/>
+<a href="cuda__utils_8cuh.html"/>
+<a href="cumem__utils_8h.html"/>
+<a href="dispatch__macros_8h.html"/>
+<a href="embedding__backward__template__helpers_8cuh.html"/>
+<a href="embedding__common_8h.html"/>
+<a href="embedding__inplace__update_8h.html"/>
+<a href="enum__utils_8h.html"/>
+<a href="fbgemm__cuda__utils_8cuh.html"/>
+<a href="fbgemm__tensor__accessor_8h.html"/>
+<a href="input__combine_8h.html"/>
+<a href="layout__transform__ops_8cuh.html"/>
+<a href="merge__pooled__embeddings_8h.html"/>
+<a href="ops__utils_8h.html"/>
+<a href="permute__pooled__embedding__ops_8h.html"/>
+<a href="permute__pooled__embedding__ops__split_8h.html"/>
+<a href="permute__pooled__embs__function_8h.html"/>
+<a href="permute__pooled__embs__function__split_8h.html"/>
+<a href="quantize__ops_8cuh.html"/>
+<a href="quantize__ops__utils_8h.html"/>
+<a href="sparse__ops_8cuh.html"/>
+<a href="sparse__ops_8h.html"/>
+<a href="sparse__ops__utils_8h.html"/>
+<a href="split__embeddings__cache__cuda_8cuh.html"/>
+<a href="split__embeddings__utils_8cuh.html"/>
+<a href="topology__utils_8h.html"/>
+<a href="embedding__inplace__update_8cu.html"/>
+<a href="embedding__inplace__update__cpu_8cpp.html"/>
+<a href="embedding__inplace__update__gpu_8cpp.html"/>
+<a href="embedding__inplace__update__test_8cpp.html"/>
+<a href="histogram__binning__calibration__ops_8cu.html"/>
+<a href="input__combine_8cu.html"/>
+<a href="input__combine__cpu_8cpp.html"/>
+<a href="input__combine__gpu_8cpp.html"/>
+<a href="batched__dense__vec__jagged__2d__mul__backward_8cu.html"/>
+<a href="batched__dense__vec__jagged__2d__mul__forward_8cu.html"/>
+<a href="jagged__tensor__ops_2common_8cuh.html"/>
+<a href="memory__utils_2common_8cuh.html"/>
+<a href="quantize__ops_2common_8cuh.html"/>
+<a href="sparse__ops_2common_8cuh.html"/>
+<a href="split__embeddings__cache_2common_8cuh.html"/>
+<a href="dense__to__jagged__forward_8cu.html"/>
+<a href="jagged__dense__bmm__forward_8cu.html"/>
+<a href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html"/>
+<a href="jagged__dense__elementwise__mul__backward_8cu.html"/>
+<a href="jagged__dense__elementwise__mul__forward_8cu.html"/>
+<a href="jagged__index__add__2d__forward_8cu.html"/>
+<a href="jagged__index__select__2d__forward_8cu.html"/>
+<a href="jagged__jagged__bmm__forward_8cu.html"/>
+<a href="jagged__softmax__backward_8cu.html"/>
+<a href="jagged__softmax__forward_8cu.html"/>
+<a href="jagged__tensor__ops_8cu.html"/>
+<a href="jagged__tensor__ops__autograd_8cpp.html"/>
+<a href="jagged__tensor__ops__cpu_8cpp.html"/>
+<a href="jagged__tensor__ops__meta_8cpp.html"/>
+<a href="jagged__to__padded__dense__backward_8cu.html"/>
+<a href="jagged__to__padded__dense__forward_8cu.html"/>
+<a href="jagged__unique__indices_8cu.html"/>
+<a href="keyed__jagged__index__select__dim1_8cu.html"/>
+<a href="stacked__jagged__1d__to__dense_8cu.html"/>
+<a href="stacked__jagged__2d__to__dense_8cu.html"/>
+<a href="layout__transform__ops_8cu.html"/>
+<a href="layout__transform__ops__cpu_8cpp.html"/>
+<a href="layout__transform__ops__gpu_8cpp.html"/>
+<a href="memory__utils_2common_8h.html"/>
+<a href="split__embeddings__cache_2common_8h.html"/>
+<a href="memory__utils_8cpp.html"/>
+<a href="memory__utils_8cu.html"/>
+<a href="memory__utils__ops_8cpp.html"/>
+<a href="memory__utils__ops_8cu.html"/>
+<a href="memory__utils__ops__cpu_8cpp.html"/>
+<a href="merge__pooled__embedding__ops__cpu_8cpp.html"/>
+<a href="merge__pooled__embedding__ops__gpu_8cpp.html"/>
+<a href="metric__ops_8cu.html"/>
+<a href="metric__ops_8h.html"/>
+<a href="metric__ops__host_8cpp.html"/>
+<a href="permute__pooled__embedding__function_8cpp.html"/>
+<a href="permute__pooled__embedding__ops_8cu.html"/>
+<a href="permute__pooled__embedding__ops__cpu_8cpp.html"/>
+<a href="permute__pooled__embedding__ops__gpu_8cpp.html"/>
+<a href="permute__pooled__embedding__ops__split_8cu.html"/>
+<a href="permute__pooled__embedding__ops__split__cpu_8cpp.html"/>
+<a href="permute__pooled__embedding__ops__split__gpu_8cpp.html"/>
+<a href="quantize__bfloat16_8cu.html"/>
+<a href="quantize__fp8__rowwise_8cu.html"/>
+<a href="quantize__fused__8bit__rowwise_8cu.html"/>
+<a href="quantize__fused__nbit__rowwise_8cu.html"/>
+<a href="quantize__hfp8_8cu.html"/>
+<a href="quantize__msfp_8cu.html"/>
+<a href="quantize__ops__cpu_8cpp.html"/>
+<a href="quantize__ops__gpu_8cpp.html"/>
+<a href="quantize__ops__meta_8cpp.html"/>
+<a href="quantize__padded__fp8__rowwise_8cu.html"/>
+<a href="sparse__async__cumsum_8cu.html"/>
+<a href="sparse__batched__unary__embeddings_8cu.html"/>
+<a href="sparse__block__bucketize__features_8cu.html"/>
+<a href="sparse__bucketize__features_8cu.html"/>
+<a href="sparse__compute__frequency__sequence_8cu.html"/>
+<a href="sparse__expand__into__jagged__permute_8cu.html"/>
+<a href="sparse__group__index_8cu.html"/>
+<a href="sparse__index__add_8cu.html"/>
+<a href="sparse__index__select_8cu.html"/>
+<a href="sparse__invert__permute_8cu.html"/>
+<a href="sparse__ops__cpu_8cpp.html"/>
+<a href="sparse__ops__gpu_8cpp.html"/>
+<a href="sparse__ops__meta_8cpp.html"/>
+<a href="sparse__pack__segments__backward_8cu.html"/>
+<a href="sparse__pack__segments__forward_8cu.html"/>
+<a href="sparse__permute102_8cu.html"/>
+<a href="sparse__permute__1d_8cu.html"/>
+<a href="sparse__permute__2d_8cu.html"/>
+<a href="sparse__permute__embeddings_8cu.html"/>
+<a href="sparse__range_8cu.html"/>
+<a href="sparse__reorder__batched__ad_8cu.html"/>
+<a href="sparse__segment__sum__csr_8cu.html"/>
+<a href="sparse__zipf_8cu.html"/>
+<a href="lfu__cache__find_8cu.html"/>
+<a href="lfu__cache__populate_8cu.html"/>
+<a href="lfu__cache__populate__byte_8cpp.html"/>
+<a href="lfu__cache__populate__byte_8cu.html"/>
+<a href="linearize__cache__indices_8cpp.html"/>
+<a href="linearize__cache__indices_8cu.html"/>
+<a href="lru__cache__find_8cu.html"/>
+<a href="lru__cache__populate_8cu.html"/>
+<a href="lru__cache__populate__byte_8cpp.html"/>
+<a href="lru__cache__populate__byte_8cu.html"/>
+<a href="lxu__cache_8cpp.html"/>
+<a href="lxu__cache_8cu.html"/>
+<a href="reset__weight__momentum_8cu.html"/>
+<a href="split__embeddings__cache__ops_8cpp.html"/>
+<a href="split__embeddings__cache__ops_8cu.html"/>
+<a href="generate__vbe__metadata_8cu.html"/>
+<a href="get__infos__metadata_8cu.html"/>
+<a href="radix__sort__pairs_8cu.html"/>
+<a href="split__embeddings__utils_8cpp.html"/>
+<a href="transpose__embedding__input_8cu.html"/>
+<a href="ssd__split__embeddings__cache__cuda_8cu.html"/>
+<a href="ssd__split__table__batched__embeddings_8cpp.html"/>
+<a href="ssd__table__batched__embeddings_8h.html"/>
+<a href="topology__utils_8cpp.html"/>
+<a href="cpu__kernel__test_8cpp.html"/>
+<a href="sparse__ops__utils__test_8cpp.html"/>
+<a href="tensor__assert__test_8cpp.html"/>
+<a href="uvm__cache__miss__emulate__test_8cpp.html"/>
+<a href="group__embedding-cuda.html"/>
+<a href="group__embedding-cpu.html"/>
+<a href="group__cumem-utils.html"/>
+<a href="group__input-combine.html"/>
+<a href="group__merge-pooled-emb.html"/>
+<a href="group__permute-pooled-embs-gpu.html"/>
+<a href="group__permute-pooled-embs-cpu.html"/>
+<a href="group__sparse-data-cuda.html"/>
+<a href="group__sparse-data-cpu.html"/>
+<a href="group__table-batched-embed-cuda.html"/>
+<a href="group__jagged-tensor-ops-cuda.html"/>
+<a href="group__jagged-tensor-ops-cpu.html"/>
+<a href="group__layout-transform-cuda.html"/>
+<a href="group__layout-transform-cpu.html"/>
+<a href="group__quantize-ops-cuda.html"/>
+<a href="group__quantize-data-cpu.html"/>
+<a href="structlog2__calc.html"/>
+<a href="structlog2__calc-members.html"/>
+<a href="structlog2__calc__.html"/>
+<a href="structlog2__calc__-members.html"/>
+<a href="structlog2__calc___3_010_01_4.html"/>
+<a href="structlog2__calc___3_010_01_4-members.html"/>
+<a href="struct_stack_array.html"/>
+<a href="struct_stack_array-members.html"/>
+<a href="struct_vec4_type.html"/>
+<a href="struct_vec4_type_3_01at_1_1_half_01_4.html"/>
+<a href="struct_vec4_type_3_01at_1_1_half_01_4-members.html"/>
+<a href="struct_vec4_type_3_01float_01_4.html"/>
+<a href="struct_vec4_type_3_01float_01_4-members.html"/>
+<a href="struct_vec4_type_3_01uint8__t_01_4.html"/>
+<a href="struct_vec4_type_3_01uint8__t_01_4-members.html"/>
+<a href="namespacefbgemm__gpu.html"/>
+<a href="structfbgemm__gpu_1_1_bitonic_sort.html"/>
+<a href="structfbgemm__gpu_1_1_bitonic_sort-members.html"/>
+<a href="structfbgemm__gpu_1_1_comparator.html"/>
+<a href="structfbgemm__gpu_1_1_comparator-members.html"/>
+<a href="structfbgemm__gpu_1_1_default_ptr_traits.html"/>
+<a href="structfbgemm__gpu_1_1_default_ptr_traits-members.html"/>
+<a href="classfbgemm__gpu_1_1enum__registration.html"/>
+<a href="classfbgemm__gpu_1_1enum__registration-members.html"/>
+<a href="classfbgemm__gpu_1_1_fixed_divisor.html"/>
+<a href="classfbgemm__gpu_1_1_fixed_divisor-members.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor-members.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html"/>
+<a href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base-members.html"/>
+<a href="structfbgemm__gpu_1_1_half4.html"/>
+<a href="structfbgemm__gpu_1_1_half4-members.html"/>
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html"/>
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function-members.html"/>
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html"/>
+<a href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split-members.html"/>
+<a href="structfbgemm__gpu_1_1rk__state.html"/>
+<a href="structfbgemm__gpu_1_1rk__state-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html"/>
+<a href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state-members.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor-members.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4-members.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor_base.html"/>
+<a href="classfbgemm__gpu_1_1_tensor_accessor_base-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_acc_t.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_acc_t-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html"/>
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4-members.html"/>
+<a href="structfbgemm__gpu_1_1_weight_row.html"/>
+<a href="structfbgemm__gpu_1_1_weight_row-members.html"/>
+<a href="namespaceinternal.html"/>
+<a href="structinternal_1_1_hyper_compressed_sparse_column.html"/>
+<a href="structinternal_1_1_hyper_compressed_sparse_column-members.html"/>
+<a href="namespacenbit.html"/>
+<a href="namespacessd.html"/>
+<a href="classssd_1_1_embedding_rocks_d_b.html"/>
+<a href="classssd_1_1_embedding_rocks_d_b-members.html"/>
+<a href="classssd_1_1_initializer.html"/>
+<a href="classssd_1_1_initializer-members.html"/>
+<a href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html"/>
+<a href="dir_b4b8bd075f03e0fff4167d5f80e92046.html"/>
+<a href="dir_a36c4719283424f51e58ca3678e5dea3.html"/>
+<a href="dir_d42b091ea9351334e82212d21cbafb15.html"/>
+<a href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html"/>
+<a href="dir_0255d041b3ce7964bcd7b11954959c22.html"/>
+<a href="dir_dfdf575eb5c21ea09ad9fb656efb7738.html"/>
+<a href="dir_d8fa031c2715d8d52539c7e4d4cc6d73.html"/>
+<a href="dir_7171c7990335cc008eec7387f12fe0ea.html"/>
+<a href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html"/>
+<a href="dir_d44c64559bbebec7f509842c48db8b23.html"/>
+<a href="dir_47b3f8f6a06f015d543fc51782f25cbc.html"/>
+<a href="dir_a88d368584008a90df396d91e5b8b095.html"/>
+<a href="dir_897ef76b26d94e0feb8fb6e0621cd742.html"/>
+<a href="dir_a27d41c4018669c20f452802c44efb2d.html"/>
+<a href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html"/>
+<a href="dir_02a03557abfde8453507651f5e287abe.html"/>
+<a href="dir_276218242e4c9e66d5a5475a5ec0acdc.html"/>
+<a href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html"/>
+<a href="dir_7caac3cc36f516c287d0977dc87384a8.html"/>
+<a href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html"/>
+<a href="dir_7ce412f9e32e10e58164510708821927.html"/>
+<a href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html"/>
+<a href="dir_68267d1309a1af8e8297ef4c3efbcdba.html"/>
+<a href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html"/>
+<a href="dir_13e138d54eb8818da29c3992edef070a.html"/>
+<a href="index.html"/>
+<a href="doxygen_crawl.html"/>
+<a href="topics.html"/>
+<a href="namespacemembers.html"/>
+<a href="namespacemembers_a.html"/>
+<a href="namespacemembers_b.html"/>
+<a href="namespacemembers_c.html"/>
+<a href="namespacemembers_d.html"/>
+<a href="namespacemembers_e.html"/>
+<a href="namespacemembers_f.html"/>
+<a href="namespacemembers_g.html"/>
+<a href="namespacemembers_h.html"/>
+<a href="namespacemembers_i.html"/>
+<a href="namespacemembers_j.html"/>
+<a href="namespacemembers_k.html"/>
+<a href="namespacemembers_l.html"/>
+<a href="namespacemembers_m.html"/>
+<a href="namespacemembers_n.html"/>
+<a href="namespacemembers_o.html"/>
+<a href="namespacemembers_p.html"/>
+<a href="namespacemembers_q.html"/>
+<a href="namespacemembers_r.html"/>
+<a href="namespacemembers_s.html"/>
+<a href="namespacemembers_t.html"/>
+<a href="namespacemembers_u.html"/>
+<a href="namespacemembers_v.html"/>
+<a href="namespacemembers_w.html"/>
+<a href="namespacemembers_z.html"/>
+<a href="namespacemembers_func.html"/>
+<a href="namespacemembers_func_a.html"/>
+<a href="namespacemembers_func_b.html"/>
+<a href="namespacemembers_func_c.html"/>
+<a href="namespacemembers_func_d.html"/>
+<a href="namespacemembers_func_e.html"/>
+<a href="namespacemembers_func_f.html"/>
+<a href="namespacemembers_func_g.html"/>
+<a href="namespacemembers_func_h.html"/>
+<a href="namespacemembers_func_i.html"/>
+<a href="namespacemembers_func_j.html"/>
+<a href="namespacemembers_func_k.html"/>
+<a href="namespacemembers_func_l.html"/>
+<a href="namespacemembers_func_m.html"/>
+<a href="namespacemembers_func_n.html"/>
+<a href="namespacemembers_func_o.html"/>
+<a href="namespacemembers_func_p.html"/>
+<a href="namespacemembers_func_q.html"/>
+<a href="namespacemembers_func_r.html"/>
+<a href="namespacemembers_func_s.html"/>
+<a href="namespacemembers_func_t.html"/>
+<a href="namespacemembers_func_u.html"/>
+<a href="namespacemembers_func_v.html"/>
+<a href="namespacemembers_func_w.html"/>
+<a href="namespacemembers_func_z.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_vars.html"/>
+<a href="namespacemembers_type.html"/>
+<a href="namespacemembers_type.html"/>
+<a href="namespacemembers_type.html"/>
+<a href="namespacemembers_type.html"/>
+<a href="namespacemembers_type.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_enum.html"/>
+<a href="namespacemembers_eval.html"/>
+<a href="namespacemembers_eval.html"/>
+<a href="annotated.html"/>
+<a href="classes.html"/>
+<a href="hierarchy.html"/>
+<a href="functions.html"/>
+<a href="functions_b.html"/>
+<a href="functions_c.html"/>
+<a href="functions_d.html"/>
+<a href="functions_e.html"/>
+<a href="functions_f.html"/>
+<a href="functions_g.html"/>
+<a href="functions_h.html"/>
+<a href="functions_i.html"/>
+<a href="functions_l.html"/>
+<a href="functions_m.html"/>
+<a href="functions_n.html"/>
+<a href="functions_o.html"/>
+<a href="functions_p.html"/>
+<a href="functions_r.html"/>
+<a href="functions_s.html"/>
+<a href="functions_t.html"/>
+<a href="functions_v.html"/>
+<a href="functions_w.html"/>
+<a href="functions_x.html"/>
+<a href="functions_~.html"/>
+<a href="functions_func.html"/>
+<a href="functions_func_b.html"/>
+<a href="functions_func_c.html"/>
+<a href="functions_func_d.html"/>
+<a href="functions_func_e.html"/>
+<a href="functions_func_f.html"/>
+<a href="functions_func_g.html"/>
+<a href="functions_func_i.html"/>
+<a href="functions_func_l.html"/>
+<a href="functions_func_m.html"/>
+<a href="functions_func_o.html"/>
+<a href="functions_func_r.html"/>
+<a href="functions_func_s.html"/>
+<a href="functions_func_t.html"/>
+<a href="functions_func_v.html"/>
+<a href="functions_func_w.html"/>
+<a href="functions_func_~.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_vars.html"/>
+<a href="functions_type.html"/>
+<a href="functions_type.html"/>
+<a href="functions_eval.html"/>
+<a href="files.html"/>
+<a href="globals.html"/>
+<a href="globals_a.html"/>
+<a href="globals_b.html"/>
+<a href="globals_c.html"/>
+<a href="globals_d.html"/>
+<a href="globals_e.html"/>
+<a href="globals_f.html"/>
+<a href="globals_g.html"/>
+<a href="globals_h.html"/>
+<a href="globals_i.html"/>
+<a href="globals_j.html"/>
+<a href="globals_k.html"/>
+<a href="globals_l.html"/>
+<a href="globals_m.html"/>
+<a href="globals_n.html"/>
+<a href="globals_o.html"/>
+<a href="globals_p.html"/>
+<a href="globals_q.html"/>
+<a href="globals_r.html"/>
+<a href="globals_s.html"/>
+<a href="globals_t.html"/>
+<a href="globals_u.html"/>
+<a href="globals_v.html"/>
+<a href="globals_w.html"/>
+<a href="globals_x.html"/>
+<a href="globals_y.html"/>
+<a href="globals_func.html"/>
+<a href="globals_func_a.html"/>
+<a href="globals_func_b.html"/>
+<a href="globals_func_c.html"/>
+<a href="globals_func_d.html"/>
+<a href="globals_func_e.html"/>
+<a href="globals_func_f.html"/>
+<a href="globals_func_g.html"/>
+<a href="globals_func_h.html"/>
+<a href="globals_func_i.html"/>
+<a href="globals_func_k.html"/>
+<a href="globals_func_l.html"/>
+<a href="globals_func_m.html"/>
+<a href="globals_func_p.html"/>
+<a href="globals_func_r.html"/>
+<a href="globals_func_s.html"/>
+<a href="globals_func_t.html"/>
+<a href="globals_func_w.html"/>
+<a href="globals_vars.html"/>
+<a href="globals_vars_c.html"/>
+<a href="globals_vars_d.html"/>
+<a href="globals_vars_e.html"/>
+<a href="globals_vars_f.html"/>
+<a href="globals_vars_g.html"/>
+<a href="globals_vars_h.html"/>
+<a href="globals_vars_i.html"/>
+<a href="globals_vars_k.html"/>
+<a href="globals_vars_l.html"/>
+<a href="globals_vars_m.html"/>
+<a href="globals_vars_n.html"/>
+<a href="globals_vars_o.html"/>
+<a href="globals_vars_p.html"/>
+<a href="globals_vars_r.html"/>
+<a href="globals_vars_s.html"/>
+<a href="globals_vars_t.html"/>
+<a href="globals_vars_u.html"/>
+<a href="globals_vars_v.html"/>
+<a href="globals_vars_w.html"/>
+<a href="globals_type.html"/>
+<a href="globals_type_c.html"/>
+<a href="globals_type_l.html"/>
+<a href="globals_type_n.html"/>
+<a href="globals_type_o.html"/>
+<a href="globals_type_t.html"/>
+<a href="globals_type_v.html"/>
+<a href="globals_enum.html"/>
+<a href="globals_enum.html"/>
+<a href="globals_eval.html"/>
+<a href="globals_defs.html"/>
+<a href="globals_defs_a.html"/>
+<a href="globals_defs_c.html"/>
+<a href="globals_defs_d.html"/>
+<a href="globals_defs_f.html"/>
+<a href="globals_defs_h.html"/>
+<a href="globals_defs_i.html"/>
+<a href="globals_defs_j.html"/>
+<a href="globals_defs_l.html"/>
+<a href="globals_defs_m.html"/>
+<a href="globals_defs_n.html"/>
+<a href="globals_defs_p.html"/>
+<a href="globals_defs_q.html"/>
+<a href="globals_defs_s.html"/>
+<a href="globals_defs_t.html"/>
+<a href="globals_defs_w.html"/>
+<a href="globals_defs_x.html"/>
+<a href="globals_defs_y.html"/>
+</body>
+</html>
diff --git a/dynsections.js b/dynsections.js
index b73c82889..8f493264f 100644
--- a/dynsections.js
+++ b/dynsections.js
@@ -22,171 +22,173 @@
 
  @licend  The above is the entire license notice for the JavaScript code in this file
  */
-function toggleVisibility(linkObj)
-{
- var base = $(linkObj).attr('id');
- var summary = $('#'+base+'-summary');
- var content = $('#'+base+'-content');
- var trigger = $('#'+base+'-trigger');
- var src=$(trigger).attr('src');
- if (content.is(':visible')===true) {
-   content.hide();
-   summary.show();
-   $(linkObj).addClass('closed').removeClass('opened');
-   $(trigger).attr('src',src.substring(0,src.length-8)+'closed.png');
- } else {
-   content.show();
-   summary.hide();
-   $(linkObj).removeClass('closed').addClass('opened');
-   $(trigger).attr('src',src.substring(0,src.length-10)+'open.png');
- }
- return false;
-}
-
-function updateStripes()
-{
-  $('table.directory tr').
-       removeClass('even').filter(':visible:even').addClass('even');
-  $('table.directory tr').
-       removeClass('odd').filter(':visible:odd').addClass('odd');
-}
-
-function toggleLevel(level)
-{
-  $('table.directory tr').each(function() {
-    var l = this.id.split('_').length-1;
-    var i = $('#img'+this.id.substring(3));
-    var a = $('#arr'+this.id.substring(3));
-    if (l<level+1) {
-      i.removeClass('iconfopen iconfclosed').addClass('iconfopen');
-      a.html('&#9660;');
-      $(this).show();
-    } else if (l==level+1) {
-      i.removeClass('iconfclosed iconfopen').addClass('iconfclosed');
-      a.html('&#9658;');
-      $(this).show();
+
+let dynsection = {
+
+  // helper function
+  updateStripes : function() {
+    $('table.directory tr').
+      removeClass('even').filter(':visible:even').addClass('even');
+    $('table.directory tr').
+      removeClass('odd').filter(':visible:odd').addClass('odd');
+  },
+
+  toggleVisibility : function(linkObj) {
+    const base = $(linkObj).attr('id');
+    const summary = $('#'+base+'-summary');
+    const content = $('#'+base+'-content');
+    const trigger = $('#'+base+'-trigger');
+    const src=$(trigger).attr('src');
+    if (content.is(':visible')===true) {
+      content.hide();
+      summary.show();
+      $(linkObj).addClass('closed').removeClass('opened');
+      $(trigger).attr('src',src.substring(0,src.length-8)+'closed.png');
     } else {
-      $(this).hide();
+      content.show();
+      summary.hide();
+      $(linkObj).removeClass('closed').addClass('opened');
+      $(trigger).attr('src',src.substring(0,src.length-10)+'open.png');
     }
-  });
-  updateStripes();
-}
-
-function toggleFolder(id)
-{
-  // the clicked row
-  var currentRow = $('#row_'+id);
-
-  // all rows after the clicked row
-  var rows = currentRow.nextAll("tr");
-
-  var re = new RegExp('^row_'+id+'\\d+_$', "i"); //only one sub
-
-  // only match elements AFTER this one (can't hide elements before)
-  var childRows = rows.filter(function() { return this.id.match(re); });
-
-  // first row is visible we are HIDING
-  if (childRows.filter(':first').is(':visible')===true) {
-    // replace down arrow by right arrow for current row
-    var currentRowSpans = currentRow.find("span");
-    currentRowSpans.filter(".iconfopen").removeClass("iconfopen").addClass("iconfclosed");
-    currentRowSpans.filter(".arrow").html('&#9658;');
-    rows.filter("[id^=row_"+id+"]").hide(); // hide all children
-  } else { // we are SHOWING
-    // replace right arrow by down arrow for current row
-    var currentRowSpans = currentRow.find("span");
-    currentRowSpans.filter(".iconfclosed").removeClass("iconfclosed").addClass("iconfopen");
-    currentRowSpans.filter(".arrow").html('&#9660;');
-    // replace down arrows by right arrows for child rows
-    var childRowsSpans = childRows.find("span");
-    childRowsSpans.filter(".iconfopen").removeClass("iconfopen").addClass("iconfclosed");
-    childRowsSpans.filter(".arrow").html('&#9658;');
-    childRows.show(); //show all children
-  }
-  updateStripes();
-}
-
-
-function toggleInherit(id)
-{
-  var rows = $('tr.inherit.'+id);
-  var img = $('tr.inherit_header.'+id+' img');
-  var src = $(img).attr('src');
-  if (rows.filter(':first').is(':visible')===true) {
-    rows.css('display','none');
-    $(img).attr('src',src.substring(0,src.length-8)+'closed.png');
-  } else {
-    rows.css('display','table-row'); // using show() causes jump in firefox
-    $(img).attr('src',src.substring(0,src.length-10)+'open.png');
-  }
-}
-
-var opened=true;
-// in case HTML_COLORSTYLE is LIGHT or DARK the vars will be replaced, so we write them out explicitly and use double quotes
-var plusImg  = [ "var(--fold-plus-image)",  "var(--fold-plus-image-relpath)" ];
-var minusImg = [ "var(--fold-minus-image)", "var(--fold-minus-image-relpath)" ];
-
-// toggle all folding blocks
-function codefold_toggle_all(relPath) {
- if (opened) {
-   $('#fold_all').css('background-image',plusImg[relPath]);
-   $('div[id^=foldopen]').hide();
-   $('div[id^=foldclosed]').show();
- } else {
-   $('#fold_all').css('background-image',minusImg[relPath]);
-   $('div[id^=foldopen]').show();
-   $('div[id^=foldclosed]').hide();
- }
- opened=!opened;
-}
-
-// toggle single folding block
-function codefold_toggle(id) {
-  $('#foldopen'+id).toggle();
-  $('#foldclosed'+id).toggle();
-}
-function init_codefold(relPath) {
-  $('span[class=lineno]').css(
-    {'padding-right':'4px',
-     'margin-right':'2px',
-     'display':'inline-block',
-     'width':'54px',
-     'background':'linear-gradient(var(--fold-line-color),var(--fold-line-color)) no-repeat 46px/2px 100%'
+    return false;
+  },
+
+  toggleLevel : function(level) {
+    $('table.directory tr').each(function() {
+      const l = this.id.split('_').length-1;
+      const i = $('#img'+this.id.substring(3));
+      const a = $('#arr'+this.id.substring(3));
+      if (l<level+1) {
+        i.removeClass('iconfopen iconfclosed').addClass('iconfopen');
+        a.html('&#9660;');
+        $(this).show();
+      } else if (l==level+1) {
+        i.removeClass('iconfclosed iconfopen').addClass('iconfclosed');
+        a.html('&#9658;');
+        $(this).show();
+      } else {
+        $(this).hide();
+      }
     });
-  // add global toggle to first line
-  $('span[class=lineno]:first').append('<span class="fold" id="fold_all" '+
-                                             'onclick="javascript:codefold_toggle_all('+relPath+');" '+
-                                             'style="background-image:'+minusImg[relPath]+';"></span>');
-  // add vertical lines to other rows
-  $('span[class=lineno]').not(':eq(0)').append('<span class="fold"></span>');
-  // add toggle controls to lines with fold divs
-  $('div[class=foldopen]').each(function() {
-    // extract specific id to use
-    var id    = $(this).attr('id').replace('foldopen','');
-    // extract start and end foldable fragment attributes
-    var start = $(this).attr('data-start');
-    var end   = $(this).attr('data-end');
-    // replace normal fold span with controls for the first line of a foldable fragment
-    $(this).find('span[class=fold]:first').replaceWith('<span class="fold" '+
-                                                       'onclick="javascript:codefold_toggle(\''+id+'\');" '+
-                                                       'style="background-image:'+minusImg[relPath]+';"></span>');
-    // append div for folded (closed) representation
-    $(this).after('<div id="foldclosed'+id+'" class="foldclosed" style="display:none;"></div>');
-    // extract the first line from the "open" section to represent closed content
-    var line = $(this).children().first().clone();
-    // remove any glow that might still be active on the original line
-    $(line).removeClass('glow');
-    if (start) {
-      // if line already ends with a start marker (e.g. trailing {), remove it
-      $(line).html($(line).html().replace(new RegExp('\\s*'+start+'\\s*$','g'),''));
+    this.updateStripes();
+  },
+
+  toggleFolder : function(id) {
+    // the clicked row
+    const currentRow = $('#row_'+id);
+
+    // all rows after the clicked row
+    const rows = currentRow.nextAll("tr");
+
+    const re = new RegExp('^row_'+id+'\\d+_$', "i"); //only one sub
+
+    // only match elements AFTER this one (can't hide elements before)
+    const childRows = rows.filter(function() { return this.id.match(re); });
+
+    // first row is visible we are HIDING
+    if (childRows.filter(':first').is(':visible')===true) {
+      // replace down arrow by right arrow for current row
+      const currentRowSpans = currentRow.find("span");
+      currentRowSpans.filter(".iconfopen").removeClass("iconfopen").addClass("iconfclosed");
+      currentRowSpans.filter(".arrow").html('&#9658;');
+      rows.filter("[id^=row_"+id+"]").hide(); // hide all children
+    } else { // we are SHOWING
+      // replace right arrow by down arrow for current row
+      const currentRowSpans = currentRow.find("span");
+      currentRowSpans.filter(".iconfclosed").removeClass("iconfclosed").addClass("iconfopen");
+      currentRowSpans.filter(".arrow").html('&#9660;');
+      // replace down arrows by right arrows for child rows
+      const childRowsSpans = childRows.find("span");
+      childRowsSpans.filter(".iconfopen").removeClass("iconfopen").addClass("iconfclosed");
+      childRowsSpans.filter(".arrow").html('&#9658;');
+      childRows.show(); //show all children
     }
-    // replace minus with plus symbol
-    $(line).find('span[class=fold]').css('background-image',plusImg[relPath]);
-    // append ellipsis
-    $(line).append(' '+start+'<a href="javascript:codefold_toggle(\''+id+'\')">&#8230;</a>'+end);
-    // insert constructed line into closed div
-    $('#foldclosed'+id).html(line);
-  });
-}
-
+    this.updateStripes();
+  },
+
+  toggleInherit : function(id) {
+    const rows = $('tr.inherit.'+id);
+    const img = $('tr.inherit_header.'+id+' img');
+    const src = $(img).attr('src');
+    if (rows.filter(':first').is(':visible')===true) {
+      rows.css('display','none');
+      $(img).attr('src',src.substring(0,src.length-8)+'closed.png');
+    } else {
+      rows.css('display','table-row'); // using show() causes jump in firefox
+      $(img).attr('src',src.substring(0,src.length-10)+'open.png');
+    }
+  },
+};
+
+let codefold = {
+  opened : true,
+
+  // in case HTML_COLORSTYLE is LIGHT or DARK the vars will be replaced, so we write them out explicitly and use double quotes
+  plusImg:  [ "var(--fold-plus-image)",  "var(--fold-plus-image-relpath)" ],
+  minusImg: [ "var(--fold-minus-image)", "var(--fold-minus-image-relpath)" ],
+
+  // toggle all folding blocks
+  toggle_all : function(relPath) {
+    if (this.opened) {
+      $('#fold_all').css('background-image',this.plusImg[relPath]);
+      $('div[id^=foldopen]').hide();
+      $('div[id^=foldclosed]').show();
+    } else {
+      $('#fold_all').css('background-image',this.minusImg[relPath]);
+      $('div[id^=foldopen]').show();
+      $('div[id^=foldclosed]').hide();
+    }
+    this.opened=!this.opened;
+  },
+
+  // toggle single folding block
+  toggle : function(id) {
+    $('#foldopen'+id).toggle();
+    $('#foldclosed'+id).toggle();
+  },
+
+  init : function(relPath) {
+    $('span[class=lineno]').css({
+      'padding-right':'4px',
+      'margin-right':'2px',
+      'display':'inline-block',
+      'width':'54px',
+      'background':'linear-gradient(var(--fold-line-color),var(--fold-line-color)) no-repeat 46px/2px 100%'
+    });
+    // add global toggle to first line
+    $('span[class=lineno]:first').append('<span class="fold" id="fold_all" '+
+      'onclick="javascript:codefold.toggle_all('+relPath+');" '+
+      'style="background-image:'+this.minusImg[relPath]+';"></span>');
+    // add vertical lines to other rows
+    $('span[class=lineno]').not(':eq(0)').append('<span class="fold"></span>');
+    // add toggle controls to lines with fold divs
+    $('div[class=foldopen]').each(function() {
+      // extract specific id to use
+      const id    = $(this).attr('id').replace('foldopen','');
+      // extract start and end foldable fragment attributes
+      const start = $(this).attr('data-start');
+      const end   = $(this).attr('data-end');
+      // replace normal fold span with controls for the first line of a foldable fragment
+      $(this).find('span[class=fold]:first').replaceWith('<span class="fold" '+
+                   'onclick="javascript:codefold.toggle(\''+id+'\');" '+
+                   'style="background-image:'+codefold.minusImg[relPath]+';"></span>');
+      // append div for folded (closed) representation
+      $(this).after('<div id="foldclosed'+id+'" class="foldclosed" style="display:none;"></div>');
+      // extract the first line from the "open" section to represent closed content
+      const line = $(this).children().first().clone();
+      // remove any glow that might still be active on the original line
+      $(line).removeClass('glow');
+      if (start) {
+        // if line already ends with a start marker (e.g. trailing {), remove it
+        $(line).html($(line).html().replace(new RegExp('\\s*'+start+'\\s*$','g'),''));
+      }
+      // replace minus with plus symbol
+      $(line).find('span[class=fold]').css('background-image',codefold.plusImg[relPath]);
+      // append ellipsis
+      $(line).append(' '+start+'<a href="javascript:codefold.toggle(\''+id+'\')">&#8230;</a>'+end);
+      // insert constructed line into closed div
+      $('#foldclosed'+id).html(line);
+    });
+  },
+};
 /* @license-end */
diff --git a/embedding__backward__dense__host_8cpp.html b/embedding__backward__dense__host_8cpp.html
new file mode 100644
index 000000000..fe5c96e7c
--- /dev/null
+++ b/embedding__backward__dense__host_8cpp.html
@@ -0,0 +1,674 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_dense_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_dense_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a840483d38dd0ee3fe4b398ebee5bf3d7" name="a840483d38dd0ee3fe4b398ebee5bf3d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a840483d38dd0ee3fe4b398ebee5bf3d7">&#9670;&#160;</a></span>dense_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e4e521f171d17c5d78bee2b3c9b21db" name="a4e4e521f171d17c5d78bee2b3c9b21db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e4e521f171d17c5d78bee2b3c9b21db">&#9670;&#160;</a></span>dense_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa413d80f0ebbadd4375b29cfb27654b3" name="aa413d80f0ebbadd4375b29cfb27654b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa413d80f0ebbadd4375b29cfb27654b3">&#9670;&#160;</a></span>dense_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aadd3974603c08fba6a7c21638a57e7f4" name="aadd3974603c08fba6a7c21638a57e7f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aadd3974603c08fba6a7c21638a57e7f4">&#9670;&#160;</a></span>dense_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aebdb9ab2fd0166beebd42528ea223ac4" name="aebdb9ab2fd0166beebd42528ea223ac4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aebdb9ab2fd0166beebd42528ea223ac4">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a920500b84d7febde7964cfa515c690" name="a4a920500b84d7febde7964cfa515c690"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a920500b84d7febde7964cfa515c690">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04b7d97e6fd0bbb6e9877db0c1b7e506" name="a04b7d97e6fd0bbb6e9877db0c1b7e506"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04b7d97e6fd0bbb6e9877db0c1b7e506">&#9670;&#160;</a></span>split_embedding_codegen_lookup_dense_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_dense_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7911ad2a461036b977d8d9f9fafb391a" name="a7911ad2a461036b977d8d9f9fafb391a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7911ad2a461036b977d8d9f9fafb391a">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__dense__host__cpu_8cpp.html b/embedding__backward__dense__host__cpu_8cpp.html
new file mode 100644
index 000000000..7c6724d7e
--- /dev/null
+++ b/embedding__backward__dense__host__cpu_8cpp.html
@@ -0,0 +1,180 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_dense_host_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_dense_host_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a16114b295cd4bb55fd704d1cc575284f" name="a16114b295cd4bb55fd704d1cc575284f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16114b295cd4bb55fd704d1cc575284f">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__cpu__approx__template_8cpp.html b/embedding__backward__split__cpu__approx__template_8cpp.html
new file mode 100644
index 000000000..20bee62f2
--- /dev/null
+++ b/embedding__backward__split__cpu__approx__template_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_cpu_approx_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_cpu_approx_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__cpu__template_8cpp.html b/embedding__backward__split__cpu__template_8cpp.html
new file mode 100644
index 000000000..fd1b88bba
--- /dev/null
+++ b/embedding__backward__split__cpu__template_8cpp.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_cpu_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_backward_split_cpu_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__grad__template_8cu.html b/embedding__backward__split__grad__template_8cu.html
new file mode 100644
index 000000000..9dbbff37b
--- /dev/null
+++ b/embedding__backward__split__grad__template_8cu.html
@@ -0,0 +1,142 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_grad_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_grad_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2dd7fc517b5148ca80cff10cd7cbcaed" name="a2dd7fc517b5148ca80cff10cd7cbcaed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2dd7fc517b5148ca80cff10cd7cbcaed">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea453d06a5b06a7263bbb3c3c598b805" name="aea453d06a5b06a7263bbb3c3c598b805"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea453d06a5b06a7263bbb3c3c598b805">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename info_pta_t , typename info_t , bool nobag&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__host__cpu__template_8cpp.html b/embedding__backward__split__host__cpu__template_8cpp.html
new file mode 100644
index 000000000..59d277d7b
--- /dev/null
+++ b/embedding__backward__split__host__cpu__template_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_host_cpu_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_host_cpu_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__host__template_8cpp.html b/embedding__backward__split__host__template_8cpp.html
new file mode 100644
index 000000000..360a53d99
--- /dev/null
+++ b/embedding__backward__split__host__template_8cpp.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_host_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_host_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a099fcb1910d50cb2f7bcfd36966c67f3" name="a099fcb1910d50cb2f7bcfd36966c67f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a099fcb1910d50cb2f7bcfd36966c67f3">&#9670;&#160;</a></span>split_embedding</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__indice__weights__template_8cu.html b/embedding__backward__split__indice__weights__template_8cu.html
new file mode 100644
index 000000000..2017e618e
--- /dev/null
+++ b/embedding__backward__split__indice__weights__template_8cu.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_indice_weights_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_indice_weights_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__kernel__cta__template_8cu.html b/embedding__backward__split__kernel__cta__template_8cu.html
new file mode 100644
index 000000000..aea6e0108
--- /dev/null
+++ b/embedding__backward__split__kernel__cta__template_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_kernel_cta_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_kernel_cta_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;gen_embedding_optimizer_{{ optimizer }}_split_device_kernel.cuh&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a436fa7b0b61202c628c4ca50bc9b1bcd" name="a436fa7b0b61202c628c4ca50bc9b1bcd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a436fa7b0b61202c628c4ca50bc9b1bcd">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__kernel__warp__template_8cu.html b/embedding__backward__split__kernel__warp__template_8cu.html
new file mode 100644
index 000000000..e911704ae
--- /dev/null
+++ b/embedding__backward__split__kernel__warp__template_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_kernel_warp_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_kernel_warp_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;gen_embedding_optimizer_{{ optimizer }}_split_device_kernel.cuh&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="aa63bd2cb4cfc6b18191236e0a85bdd26" name="aa63bd2cb4cfc6b18191236e0a85bdd26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa63bd2cb4cfc6b18191236e0a85bdd26">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__split__template_8cu.html b/embedding__backward__split__template_8cu.html
new file mode 100644
index 000000000..cb30333bb
--- /dev/null
+++ b/embedding__backward__split__template_8cu.html
@@ -0,0 +1,161 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_backward_split_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_backward_split_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = {{ max_embedding_dim</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                                \</div>
+<div class="line">    {%- <span class="keywordflow">for</span> kMaxElemPerThread in range(1, max_embedding_dim</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a436fa7b0b61202c628c4ca50bc9b1bcd" name="a436fa7b0b61202c628c4ca50bc9b1bcd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a436fa7b0b61202c628c4ca50bc9b1bcd">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__backward__template__helpers_8cuh.html b/embedding__backward__template__helpers_8cuh.html
new file mode 100644
index 000000000..a906c7702
--- /dev/null
+++ b/embedding__backward__template__helpers_8cuh.html
@@ -0,0 +1,197 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/embedding_backward_template_helpers.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_backward_template_helpers.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/TensorUtils.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAGeneratorImpl.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAGraphsUtils.cuh&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+<code>#include &lt;mutex&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="adce6eee5db9c1c3f52ff15d9fe263495" name="adce6eee5db9c1c3f52ff15d9fe263495"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adce6eee5db9c1c3f52ff15d9fe263495">&#9670;&#160;</a></span>SHFL_SYNC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SHFL_SYNC</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">val</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">srcLane</span>&#160;)&#160;&#160;&#160;  shfl_sync(<a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">val</a>, srcLane, kThreadGroupSize, shfl_sync_mask)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa054bfcfa5ed7f584d2811fe48a2f757" name="aa054bfcfa5ed7f584d2811fe48a2f757"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa054bfcfa5ed7f584d2811fe48a2f757">&#9670;&#160;</a></span>gpuAtomicIncrement()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> gpuAtomicIncrement </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a1844f7d12c928eeeab43f95ae91376c7" name="a1844f7d12c928eeeab43f95ae91376c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1844f7d12c928eeeab43f95ae91376c7">&#9670;&#160;</a></span>kBackwardMaxThreads</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr size_t kBackwardMaxThreads = 512</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a377d2c34d1f3becb19a91ea600e05321" name="a377d2c34d1f3becb19a91ea600e05321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a377d2c34d1f3becb19a91ea600e05321">&#9670;&#160;</a></span>kCacheLocationMissing</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int32_t kCacheLocationMissing = -1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__bounds__check_8cu.html b/embedding__bounds__check_8cu.html
new file mode 100644
index 000000000..924f18405
--- /dev/null
+++ b/embedding__bounds__check_8cu.html
@@ -0,0 +1,163 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_bounds_check.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_bounds_check.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &lt;c10/cuda/CUDADeviceAssertion.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAException.h&gt;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9fcdcf37685cd2ec9b88dfac7e77aaaa" name="a9fcdcf37685cd2ec9b88dfac7e77aaaa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9fcdcf37685cd2ec9b88dfac7e77aaaa">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , bool vbe&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9e26c2f2d6dfef45e1a12507d8c2b72" name="af9e26c2f2d6dfef45e1a12507d8c2b72"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9e26c2f2d6dfef45e1a12507d8c2b72">&#9670;&#160;</a></span>adjust_offset_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ void adjust_offset_kernel </td>
+          <td>(</td>
+          <td class="paramtype">index_t &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">index_t &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_end</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const index_t</td>          <td class="paramname"><span class="paramname"><em>num_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">index_t *const</td>          <td class="paramname"><span class="paramname"><em>offset_acc_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">index_t *const</td>          <td class="paramname"><span class="paramname"><em>offset_acc_end</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__bounds__check__host_8cpp.html b/embedding__bounds__check__host_8cpp.html
new file mode 100644
index 000000000..ce48eb209
--- /dev/null
+++ b/embedding__bounds__check__host_8cpp.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_bounds_check_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_bounds_check_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__bounds__check__host__cpu_8cpp.html b/embedding__bounds__check__host__cpu_8cpp.html
new file mode 100644
index 000000000..a058f8b95
--- /dev/null
+++ b/embedding__bounds__check__host__cpu_8cpp.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_bounds_check_host_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_bounds_check_host_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__common_8h.html b/embedding__common_8h.html
new file mode 100644
index 000000000..52f451ff6
--- /dev/null
+++ b/embedding__common_8h.html
@@ -0,0 +1,100 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/embedding_common.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_common.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;c10/macros/Macros.h&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__cpu__template_8cpp.html b/embedding__forward__quantized__cpu__template_8cpp.html
new file mode 100644
index 000000000..99ed3b18c
--- /dev/null
+++ b/embedding__forward__quantized__cpu__template_8cpp.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_cpu_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_quantized_cpu_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Context.h&gt;</code><br />
+<code>#include &lt;ATen/Parallel.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;cstring&gt;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__host_8cpp.html b/embedding__forward__quantized__host_8cpp.html
new file mode 100644
index 000000000..eacca4977
--- /dev/null
+++ b/embedding__forward__quantized__host_8cpp.html
@@ -0,0 +1,500 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_quantized_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;c10/core/ScalarType.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__cache__cuda_8cuh.html">fbgemm_gpu/split_embeddings_cache_cuda.cuh</a>&quot;</code><br />
+<code>#include &lt;algorithm&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gabbe880100f1036a979f3a8d8755447d0" id="r_gabbe880100f1036a979f3a8d8755447d0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0">int_nbit_split_embedding_uvm_caching_codegen_lookup_function</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> weights_tys, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_D, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> max_int2_D, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> max_int4_D, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> max_int8_D, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> max_float16_D, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> max_float32_D, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> pooling_mode, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; indice_weights, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> output_dtype, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; row_alignment, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; max_float8_D, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; fp8_exponent_bits, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; fp8_exponent_bias, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; cache_hash_size_cumsum, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; total_cache_hash_size, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; cache_index_table_map, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; lxu_cache_state, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; lxu_state)</td></tr>
+<tr class="separator:gabbe880100f1036a979f3a8d8755447d0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5a581a6131f9754699b4e5bb27b20ecb" name="a5a581a6131f9754699b4e5bb27b20ecb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a581a6131f9754699b4e5bb27b20ecb">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79655cba701e82021eefe7fe8cb72916" name="a79655cba701e82021eefe7fe8cb72916"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79655cba701e82021eefe7fe8cb72916">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0545cdf708e09c0958f1538e7b4b29c9" name="a0545cdf708e09c0958f1538e7b4b29c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0545cdf708e09c0958f1538e7b4b29c9">&#9670;&#160;</a></span>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__host__cpu_8cpp.html b/embedding__forward__quantized__host__cpu_8cpp.html
new file mode 100644
index 000000000..d6e3433b6
--- /dev/null
+++ b/embedding__forward__quantized__host__cpu_8cpp.html
@@ -0,0 +1,378 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_host_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_quantized_host_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/custom_class.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &lt;ostream&gt;</code><br />
+<code>#include &lt;torch/serialize/input-archive.h&gt;</code><br />
+<code>#include &lt;torch/serialize/output-archive.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a718e1ac4e0fa56a96e666ee2d5a5c40a" name="a718e1ac4e0fa56a96e666ee2d5a5c40a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a718e1ac4e0fa56a96e666ee2d5a5c40a">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a1cc170a745f03faefac536cfcbf1e6" name="a5a1cc170a745f03faefac536cfcbf1e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1cc170a745f03faefac536cfcbf1e6">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_weighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_weighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3d9ee6fd394ec0055de7f2c2acfba3d" name="af3d9ee6fd394ec0055de7f2c2acfba3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3d9ee6fd394ec0055de7f2c2acfba3d">&#9670;&#160;</a></span>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__split__lookup_8cu.html b/embedding__forward__quantized__split__lookup_8cu.html
new file mode 100644
index 000000000..6b35298a6
--- /dev/null
+++ b/embedding__forward__quantized__split__lookup_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_split_lookup.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_quantized_split_lookup.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__split__nbit__host__template_8cu.html b/embedding__forward__quantized__split__nbit__host__template_8cu.html
new file mode 100644
index 000000000..59945f3e4
--- /dev/null
+++ b/embedding__forward__quantized__split__nbit__host__template_8cu.html
@@ -0,0 +1,545 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_split_nbit_host_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_quantized_split_nbit_host_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT2_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name1, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+<div class="ttc" id="afbgemm__tensor__accessor_8h_html_a614f4b016e2758186bd598bc3be6e6cf"><div class="ttname"><a href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a></div><div class="ttdeci">#define MAKE_PTA_WITH_NAME(FUNC_NAME, TENSOR, T, N, INDEX_NBITS)</div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:577</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">template uint8_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1240</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a6d8072fe7f1cbd1cf456e3ea8a440ad3"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:119</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a764f8ae801cd000c2a5cb4bb23f14299"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:120</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a8a3ac708f5fc38ea5ebecdbe685f3c73"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:121</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_acbf20500022fb5f972956bea423a05ff"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:123</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_a057f5488fcdaf454d09c4f1b25374ac9"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:101</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_aff2584a62b3409906c19c5419a4cc647"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:104</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a0c2527424502280dfcf6276b49b41cdc"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const lxu_cache_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:58</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a17f61eb7bf7a7e4089982fbf69116da5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const uvm_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:57</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a240b4e029c521f922d447346c8b757b8"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t B</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:60</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a2ee4b3e799d56c4d34c87190c37a7a64"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t T</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:61</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a60a1ec59d36df78e844d5cd7a0d34f03"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t const FixedDivisor const index_t *__restrict__ const const index_t *__restrict__ const const uint32_t *__restrict__ const const int64_t *__restrict__ const const int32_t *__restrict__ const lxu_cache_locations</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:69</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_ad4dd9cc51f1eccdf4626318632701868"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const weights_placements</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:59</div></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+<div class="ttc" id="anamespacenbit_html_a620ba1c7dba3e279e09759758b7a86db"><div class="ttname"><a href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a></div><div class="ttdeci">C10_HOST_DEVICE C10_ALWAYS_INLINE uint32_t div_round_up(uint32_t a, uint32_t b)</div><div class="ttdef"><b>Definition</b> embedding_common.h:94</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT4_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name2, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT8_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name3, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP8_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name4, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        fp8_exponent_bits, \</div>
+<div class="line">        fp8_exponent_bias, \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP16_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name5, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP32_split_embedding{{ <span class="stringliteral">&quot;_nobag&quot;</span> <span class="keywordflow">if</span> nobag <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> }}_codegen_forward_{{ wdesc }}_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(<a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, int32_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, int32_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">else</span> %} \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">div_round_up</a>(<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">        {% <span class="keywordflow">if</span> not nobag %} \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">        {% endif %} \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">        {% <span class="keywordflow">if</span> weighted %} <a class="code hl_define" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">MAKE_PTA_WITH_NAME</a>(func_name6, indice_weights, <span class="keywordtype">float</span>, 1, 32), {% endif %} \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, int32_t, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acec51faeb0681c58de451cb9d59abe95" name="acec51faeb0681c58de451cb9d59abe95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acec51faeb0681c58de451cb9d59abe95">&#9670;&#160;</a></span>Y</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define Y</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">      <span class="keywordflow">if</span> (device_only) { \</div>
+<div class="line">        X(<span class="keyword">true</span>, __VA_ARGS__) \</div>
+<div class="line">      } <span class="keywordflow">else</span> { \</div>
+<div class="line">        X(<span class="keyword">false</span>, __VA_ARGS__) \</div>
+<div class="line">      };</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="a1c03911dcc4fa0b0d2819531e1148a4f" name="a1c03911dcc4fa0b0d2819531e1148a4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1c03911dcc4fa0b0d2819531e1148a4f">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{% set wdesc =  <span class="stringliteral">&quot;weighted&quot;</span> <span class="keywordflow">if</span> weighted <span class="keywordflow">else</span> <span class="stringliteral">&quot;unweighted&quot;</span> %}</div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"><span class="keyword">using namespace </span><a class="code hl_namespace" href="namespacefbgemm__gpu.html">fbgemm_gpu</a> at::Tensor</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html"><div class="ttname"><a href="namespacefbgemm__gpu.html">fbgemm_gpu</a></div><div class="ttdef"><b>Definition</b> embedding_ops_placeholder.cpp:15</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__quantized__split__nbit__kernel__template_8cu.html b/embedding__forward__quantized__split__nbit__kernel__template_8cu.html
new file mode 100644
index 000000000..b64d32f71
--- /dev/null
+++ b/embedding__forward__quantized__split__nbit__kernel__template_8cu.html
@@ -0,0 +1,110 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_quantized_split_nbit_kernel_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_quantized_split_nbit_kernel_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="a1c03911dcc4fa0b0d2819531e1148a4f" name="a1c03911dcc4fa0b0d2819531e1148a4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1c03911dcc4fa0b0d2819531e1148a4f">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{% set wdesc =  <span class="stringliteral">&quot;weighted&quot;</span> <span class="keywordflow">if</span> weighted <span class="keywordflow">else</span> <span class="stringliteral">&quot;unweighted&quot;</span> %}</div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"><span class="keyword">using namespace </span><a class="code hl_namespace" href="namespacefbgemm__gpu.html">fbgemm_gpu</a> at::Tensor</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html"><div class="ttname"><a href="namespacefbgemm__gpu.html">fbgemm_gpu</a></div><div class="ttdef"><b>Definition</b> embedding_ops_placeholder.cpp:15</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__cpu_8cpp.html b/embedding__forward__split__cpu_8cpp.html
new file mode 100644
index 000000000..cbaffecf9
--- /dev/null
+++ b/embedding__forward__split__cpu_8cpp.html
@@ -0,0 +1,448 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;fbgemm/Utils.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;omp.h&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a32da455953694aac0b5e837bd3f1c31a" name="a32da455953694aac0b5e837bd3f1c31a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32da455953694aac0b5e837bd3f1c31a">&#9670;&#160;</a></span>INSTANTIATE_BATCHED_CSR2CSC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INSTANTIATE_BATCHED_CSR2CSC</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SCALAR_T</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">template</span> <span class="keywordtype">void</span> csr2csc_template_&lt;SCALAR_T, true&gt;(        \</div>
+<div class="line">      HyperCompressedSparseColumn &amp; csc,                  \</div>
+<div class="line">      <span class="keywordtype">int</span> <a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>,                                              \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;int64_t, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_offsets</a>,  \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;int64_t, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_indices</a>,  \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;SCALAR_T, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_weights</a>, \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">pooling_mode</a>,                               \</div>
+<div class="line">      <span class="keyword">const</span> <span class="keywordtype">int</span>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">table_to_feature_offset</a>,                 \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_embeddings</a>);                            \</div>
+<div class="line">                                                          \</div>
+<div class="line">  <span class="keyword">template</span> <span class="keywordtype">void</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr2csc_template_&lt;SCALAR_T, false&gt;</a>(       \</div>
+<div class="line">      HyperCompressedSparseColumn &amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csc</a>,                  \</div>
+<div class="line">      <span class="keywordtype">int</span> <a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>,                                              \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;int64_t, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_offsets</a>,  \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;int64_t, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_indices</a>,  \</div>
+<div class="line">      <span class="keyword">const</span> at::TensorAccessor&lt;SCALAR_T, 1&gt;&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">csr_weights</a>, \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">pooling_mode</a>,                               \</div>
+<div class="line">      <span class="keyword">const</span> <span class="keywordtype">int</span>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">table_to_feature_offset</a>,                 \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_embeddings</a>);</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_adb51b4975da6fe6cd1f6465b56b3b8ab"><div class="ttname"><a href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu::B</a></div><div class="ttdeci">__global__ const int32_t B</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:20</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aaf201bc6f5c8deb12999a3eff03cf7bb" name="aaf201bc6f5c8deb12999a3eff03cf7bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf201bc6f5c8deb12999a3eff03cf7bb">&#9670;&#160;</a></span>split_embedding_codegen_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0641f4b915d503586cb2d251029169e4" name="a0641f4b915d503586cb2d251029169e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0641f4b915d503586cb2d251029169e4">&#9670;&#160;</a></span>split_embedding_codegen_forward_cpu_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_cpu_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03b54fa4944d00f3984442a980742701" name="a03b54fa4944d00f3984442a980742701"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03b54fa4944d00f3984442a980742701">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af360a949beb9bba72466614e220da13d" name="af360a949beb9bba72466614e220da13d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af360a949beb9bba72466614e220da13d">&#9670;&#160;</a></span>split_embedding_forward_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ind_weights_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> split_embedding_forward_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1156d3aee8ccb8a6676b22f78fe0829c" name="a1156d3aee8ccb8a6676b22f78fe0829c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1156d3aee8ccb8a6676b22f78fe0829c">&#9670;&#160;</a></span>split_embedding_grad_indice_weights_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">grad_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> split_embedding_grad_indice_weights_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_indice_weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__cpu_8h.html b/embedding__forward__split__cpu_8h.html
new file mode 100644
index 000000000..c95eb1dc3
--- /dev/null
+++ b/embedding__forward__split__cpu_8h.html
@@ -0,0 +1,212 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_cpu.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_split_cpu.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Parallel.h&gt;</code><br />
+<code>#include &quot;fbgemm/Utils.h&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a01e2ccf0c687aa129f511c048dd878a2" name="a01e2ccf0c687aa129f511c048dd878a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01e2ccf0c687aa129f511c048dd878a2">&#9670;&#160;</a></span>split_embedding_codegen_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> split_embedding_codegen_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a371a7887c9af52b22bdc10e84d5c2ba6" name="a371a7887c9af52b22bdc10e84d5c2ba6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a371a7887c9af52b22bdc10e84d5c2ba6">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> split_embedding_codegen_grad_indice_weights_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__kernel__nobag__small__template_8cu.html b/embedding__forward__split__kernel__nobag__small__template_8cu.html
new file mode 100644
index 000000000..adccb6fb5
--- /dev/null
+++ b/embedding__forward__split__kernel__nobag__small__template_8cu.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_kernel_nobag_small_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_split_kernel_nobag_small_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a5c289e92014011ec16430dabf2272ae8" name="a5c289e92014011ec16430dabf2272ae8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c289e92014011ec16430dabf2272ae8">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__kernel__template_8cu.html b/embedding__forward__split__kernel__template_8cu.html
new file mode 100644
index 000000000..69c6417c5
--- /dev/null
+++ b/embedding__forward__split__kernel__template_8cu.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_kernel_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_split_kernel_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__kernel__v2__template_8cu.html b/embedding__forward__split__kernel__v2__template_8cu.html
new file mode 100644
index 000000000..a2b84af51
--- /dev/null
+++ b/embedding__forward__split__kernel__v2__template_8cu.html
@@ -0,0 +1,785 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_kernel_v2_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_split_kernel_v2_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ada15471a8b1da6a3a43b940916fea71e" name="ada15471a8b1da6a3a43b940916fea71e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada15471a8b1da6a3a43b940916fea71e">&#9670;&#160;</a></span>ACC_ADD_OR_FMA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define ACC_ADD_OR_FMA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_WEIGHT</span>&#160;)&#160;&#160;&#160;  {%- <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4">if</a> weighted %}</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f2b77785cbc55639ba4e4874a65426c" name="a0f2b77785cbc55639ba4e4874a65426c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f2b77785cbc55639ba4e4874a65426c">&#9670;&#160;</a></span>DIV_ROUND_UP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DIV_ROUND_UP</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">numer, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">denom</span>&#160;)&#160;&#160;&#160;((numer + denom - 1) / denom)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acaeccb7e2e5908cef08556661b7a6f44" name="acaeccb7e2e5908cef08556661b7a6f44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acaeccb7e2e5908cef08556661b7a6f44">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    <span class="keywordflow">if</span> (<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a>) { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">true</span>, __VA_ARGS__); \</div>
+<div class="line">    } \</div>
+<div class="line">    <span class="keywordflow">else</span> { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">false</span>, __VA_ARGS__); \</div>
+<div class="line">    }</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aa7b80f1189d1874ab861378ed299a21e"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a></div><div class="ttdeci">bool use_lxu_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:746</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a65e818853d870f84ef24b703b0e02618" name="a65e818853d870f84ef24b703b0e02618"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65e818853d870f84ef24b703b0e02618">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES_HELPER</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES_HELPER</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">USE_CACHE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">KERNEL_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TAIL_WARP_SIZE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">STEP_MASK</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    process_all_indices_## KERNEL_TYPE&lt; \</div>
+<div class="line">      index_t, \</div>
+<div class="line">      emb_t, \</div>
+<div class="line">      emb_vec_t, \</div>
+<div class="line">      cache_t, \</div>
+<div class="line">      <a class="code hl_typedef" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>, \</div>
+<div class="line">      <a class="code hl_typedef" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a>, \</div>
+<div class="line">      USE_CACHE, \</div>
+<div class="line">      USE_CACHE &amp;&amp; !std::is_same&lt;emb_t, cache_t&gt;::value, \</div>
+<div class="line">      <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> * <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a>, \</div>
+<div class="line">      <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a>, \</div>
+<div class="line">      STEP_MASK, \</div>
+<div class="line">      TAIL_WARP_SIZE \</div>
+<div class="line">    &gt;( \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">smem</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">L</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">load_d</a> + (threadIdx.x % TAIL_WARP_SIZE) &lt; <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">load_D</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">mean_pooling</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">params_offset</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">max_D_cache</a>)</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a179f256aa33ee3f02b437129f3186a4c"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">max_D_cache</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t max_D_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:63</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_aa7749446d7c1da86adc5b7c06dcc7817"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">mean_pooling</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool mean_pooling</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:62</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a016decd4d08ff2700a397621aff0cd67"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">load_D</a></div><div class="ttdeci">uint32_t load_D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:724</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a02bec57c3d9431edc5aba7767412fada"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">params_offset</a></div><div class="ttdeci">const uint32_t params_offset</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:674</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a46b036c211c222352709e6bb2420878d"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a></div><div class="ttdeci">vec4_type&lt; output_t &gt; output_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:667</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a586264efd35f61c1e5b73ab1fd4f87a5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a></div><div class="ttdeci">constexpr uint32_t NUM_PARAMS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:671</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a6394626e129b23b47a8e900179ea1a98"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a></div><div class="ttdeci">vec4_type&lt; cache_t &gt; cache_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:666</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a67824ecf84f5816f07b74fa956bdbcd2"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">L</a></div><div class="ttdeci">uint32_t L</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:744</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a6aa5afd375a88f7cb364118fde074739"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">load_d</a></div><div class="ttdeci">const uint32_t load_d</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:741</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a843d0aea30f5cc9663eb720c3dd003ce"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">smem</a></div><div class="ttdeci">__shared__ long smem[NUM_PARAMS *NUM_WARPS+kForwardMaxThreads]</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:673</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aad5a825be51026d8249ffccad954dbb5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a></div><div class="ttdeci">constexpr uint32_t STEP</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:672</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aef84dc9fc9b8afa43b8fed4684630167"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a></div><div class="ttdeci">constexpr uint32_t NUM_WARPS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:669</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a9e947cce4a2cf3d4f94feeaf6024a3e3" name="a9e947cce4a2cf3d4f94feeaf6024a3e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e947cce4a2cf3d4f94feeaf6024a3e3">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f5221b4fcc0397e5c260e567afd000f" name="a8f5221b4fcc0397e5c260e567afd000f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f5221b4fcc0397e5c260e567afd000f">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a741fa81333f21f397dd7bcb524345f77" name="a741fa81333f21f397dd7bcb524345f77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a741fa81333f21f397dd7bcb524345f77">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a240239b93a27d2333aba0661096e3f2f" name="a240239b93a27d2333aba0661096e3f2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240239b93a27d2333aba0661096e3f2f">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82d4ccecee745b4cadb5d2d04e986efc" name="a82d4ccecee745b4cadb5d2d04e986efc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82d4ccecee745b4cadb5d2d04e986efc">&#9670;&#160;</a></span>SMEM_GENERIC_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_GENERIC_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(uintptr_t*)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c92b1dfe0de84f52323da3897cb0bb4" name="a5c92b1dfe0de84f52323da3897cb0bb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c92b1dfe0de84f52323da3897cb0bb4">&#9670;&#160;</a></span>SMEM_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? j : ((threadIdx.x / LOAD_GROUP_SIZE) + (j * NUM_LOAD_GROUPS)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aec0d9a647d3bde05780ff426af9ebf45" name="aec0d9a647d3bde05780ff426af9ebf45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec0d9a647d3bde05780ff426af9ebf45">&#9670;&#160;</a></span>SMEM_PTR_BASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_PTR_BASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE</span></td><td>)</td>
+          <td>&#160;&#160;&#160;  (reinterpret_cast&lt;TYPE&gt;(<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">smem</a> + WEIGHT_PTR_OFFSET) + threadIdx.y * <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e90593b9eb03be49ddd5e3e5473f0b5" name="a1e90593b9eb03be49ddd5e3e5473f0b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e90593b9eb03be49ddd5e3e5473f0b5">&#9670;&#160;</a></span>WEIGHT_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define WEIGHT_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? threadIdx.x : (threadIdx.x % LOAD_GROUP_SIZE))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="a58da2e6e124bd5725ddbf144b36921f5" name="a58da2e6e124bd5725ddbf144b36921f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58da2e6e124bd5725ddbf144b36921f5">&#9670;&#160;</a></span>vec4_type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a> = typename <a class="el" href="struct_vec4_type.html">Vec4Type</a>&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>&gt;::type</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Enumeration Type Documentation</h2>
+<a id="aa8c3f67d852b0552ccbe30a899cd4c54" name="aa8c3f67d852b0552ccbe30a899cd4c54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8c3f67d852b0552ccbe30a899cd4c54">&#9670;&#160;</a></span>SAVED_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">SAVED_PARAMS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20" name="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20"></a>P_indices&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52" name="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52"></a>P_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da" name="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da"></a>P_outputs&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144" name="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144"></a>P_num_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834" name="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834"></a>P_load_D&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2" name="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2"></a>P_total_load_D&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9bbd05d6885ea75e7564678a52104538" name="a9bbd05d6885ea75e7564678a52104538"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bbd05d6885ea75e7564678a52104538">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool USE_LXU_CACHE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a20b736346ad19821ed9748c4dde5b058" name="a20b736346ad19821ed9748c4dde5b058"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a20b736346ad19821ed9748c4dde5b058">&#9670;&#160;</a></span>_v2_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">_v2_kernel </td>
+          <td>(</td>
+          <td class="paramtype">const emb_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const emb_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const cache_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const FixedDivisor</td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const index_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">{%- <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4">if</a> weighted %} const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">{%- endif %} const index_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">output_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2a539cccb1f62bb145cef234b6608c7f" name="a2a539cccb1f62bb145cef234b6608c7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2a539cccb1f62bb145cef234b6608c7f">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">accumulator fma </td>
+          <td>(</td>
+          <td class="paramtype">WEIGHT</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">INDEX_WEIGHT</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7cc9e1627beb86ecc866da06957e0fff" name="a7cc9e1627beb86ecc866da06957e0fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cc9e1627beb86ecc866da06957e0fff">&#9670;&#160;</a></span>get_next_bag_boundary_and_L()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOWER_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void get_next_bag_boundary_and_L </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad4f576c80cbb86fce55f5420968bc826" name="ad4f576c80cbb86fce55f5420968bc826"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4f576c80cbb86fce55f5420968bc826">&#9670;&#160;</a></span>process_all_indices_large_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_large_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02fb6083bc1f3a1c39dabb7818866a46" name="a02fb6083bc1f3a1c39dabb7818866a46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02fb6083bc1f3a1c39dabb7818866a46">&#9670;&#160;</a></span>process_all_indices_no_pooling()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void process_all_indices_no_pooling </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a871fb6b516157e559e3ed26b56e4245c" name="a871fb6b516157e559e3ed26b56e4245c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a871fb6b516157e559e3ed26b56e4245c">&#9670;&#160;</a></span>process_all_indices_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>total_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a784fce39007138a17294839676673bde" name="a784fce39007138a17294839676673bde"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a784fce39007138a17294839676673bde">&#9670;&#160;</a></span>write_loop_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> BOUNDARY_IDX_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void write_loop_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>write_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Vec4StepT&lt; <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a>, emb_t &gt; *const</td>          <td class="paramname"><span class="paramname"><em>accumulator</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>l</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae2a8bf21f0c677246d8d102686641b65" name="ae2a8bf21f0c677246d8d102686641b65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2a8bf21f0c677246d8d102686641b65">&#9670;&#160;</a></span>LXU_PARAMS_CNT</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LXU_PARAMS_CNT = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af57bf37dbd6a53004f468edeb5020860" name="af57bf37dbd6a53004f468edeb5020860"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af57bf37dbd6a53004f468edeb5020860">&#9670;&#160;</a></span>VEC_WIDTH</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> VEC_WIDTH = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__meta__template_8cpp.html b/embedding__forward__split__meta__template_8cpp.html
new file mode 100644
index 000000000..0de2d8805
--- /dev/null
+++ b/embedding__forward__split__meta__template_8cpp.html
@@ -0,0 +1,129 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_meta_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_split_meta_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abd5e6ae11c42b2e53f1da6fa1f4646ed" name="abd5e6ae11c42b2e53f1da6fa1f4646ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abd5e6ae11c42b2e53f1da6fa1f4646ed">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{#</div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line">{%- set ddesc =  <span class="stringliteral">&quot;dense&quot;</span> <span class="keywordflow">if</span> dense <span class="keywordflow">else</span> <span class="stringliteral">&quot;split&quot;</span> %}</div>
+<div class="line">{%- set wdesc =  <span class="stringliteral">&quot;weighted&quot;</span> <span class="keywordflow">if</span> weighted <span class="keywordflow">else</span> <span class="stringliteral">&quot;unweighted&quot;</span> %}</div>
+<div class="line">{%- set vdesc = <span class="stringliteral">&quot;_vbe&quot;</span> <span class="keywordflow">if</span> vbe <span class="keywordflow">else</span> <span class="stringliteral">&quot;&quot;</span> %}</div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"><span class="keyword">using namespace </span><a class="code hl_namespace" href="namespacefbgemm__gpu.html">fbgemm_gpu</a> at::Tensor</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html"><div class="ttname"><a href="namespacefbgemm__gpu.html">fbgemm_gpu</a></div><div class="ttdef"><b>Definition</b> embedding_ops_placeholder.cpp:15</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__split__template_8cu.html b/embedding__forward__split__template_8cu.html
new file mode 100644
index 000000000..b12e4be27
--- /dev/null
+++ b/embedding__forward__split__template_8cu.html
@@ -0,0 +1,163 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_split_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_forward_split_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    {%- <span class="keywordflow">if</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">dense</a> %}</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keywordtype">int</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">kThreadGroupSize</a> = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                                \</div>
+<div class="line">    {%- <span class="keywordflow">for</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">kMaxElemPerThread</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">in</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">range</a>(1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_embedding_dim</a></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    {%- <span class="keywordflow">for</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">kEmbeddingSize</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">in</a> [4, 8, 16, 32] %}</div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__forward__template__helpers_8cuh.html b/embedding__forward__template__helpers_8cuh.html
new file mode 100644
index 000000000..263930ba5
--- /dev/null
+++ b/embedding__forward__template__helpers_8cuh.html
@@ -0,0 +1,191 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_forward_template_helpers.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">embedding_forward_template_helpers.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/TensorUtils.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_radix_sort.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_run_length_encode.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+<code>#include &lt;limits&gt;</code><br />
+<code>#include &lt;mutex&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ab71806d51c0bb2fbc0b08fb3ed2b442e" id="r_ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memTemplParams" colspan="2">template&lt;int N&gt; </td></tr>
+<tr class="memitem:ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacenbit.html#ab71806d51c0bb2fbc0b08fb3ed2b442e">cp_async_wait</a> ()</td></tr>
+<tr class="separator:ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="adce6eee5db9c1c3f52ff15d9fe263495" name="adce6eee5db9c1c3f52ff15d9fe263495"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adce6eee5db9c1c3f52ff15d9fe263495">&#9670;&#160;</a></span>SHFL_SYNC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SHFL_SYNC</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">val</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">srcLane</span>&#160;)&#160;&#160;&#160;  shfl_sync(<a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">val</a>, srcLane, kThreadGroupSize, shfl_sync_mask)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a377d2c34d1f3becb19a91ea600e05321" name="a377d2c34d1f3becb19a91ea600e05321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a377d2c34d1f3becb19a91ea600e05321">&#9670;&#160;</a></span>kCacheLocationMissing</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int32_t kCacheLocationMissing = -1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9909b6865afc4a3e07fabe1ed204459" name="ac9909b6865afc4a3e07fabe1ed204459"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9909b6865afc4a3e07fabe1ed204459">&#9670;&#160;</a></span>kForwardMaxThreads</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr size_t kForwardMaxThreads = 512</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__inplace__update_8cu.html b/embedding__inplace__update_8cu.html
new file mode 100644
index 000000000..8a9fb4a94
--- /dev/null
+++ b/embedding__inplace__update_8cu.html
@@ -0,0 +1,123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/embedding_inplace_ops/embedding_inplace_update.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7171c7990335cc008eec7387f12fe0ea.html">embedding_inplace_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">embedding_inplace_update.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__inplace__update_8h.html">fbgemm_gpu/embedding_inplace_update.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a54bf7e9b54b5263cf039100cda517c34" id="r_a54bf7e9b54b5263cf039100cda517c34"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34">embedding_inplace_update_cuda</a> (<a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_idx</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_idx</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>=c10::nullopt, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>=c10::nullopt)</td></tr>
+<tr class="separator:a54bf7e9b54b5263cf039100cda517c34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adda552b8784184a2f17aa997e10869f9" id="r_adda552b8784184a2f17aa997e10869f9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9">pruned_array_lookup_from_row_idx_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings_offsets</a>)</td></tr>
+<tr class="separator:adda552b8784184a2f17aa997e10869f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__inplace__update_8h.html b/embedding__inplace__update_8h.html
new file mode 100644
index 000000000..1fd3c3077
--- /dev/null
+++ b/embedding__inplace__update_8h.html
@@ -0,0 +1,123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/embedding_inplace_update.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">embedding_inplace_update.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;torch/torch.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a54bf7e9b54b5263cf039100cda517c34" id="r_a54bf7e9b54b5263cf039100cda517c34"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34">embedding_inplace_update_cuda</a> (<a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_weights</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_idx</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_idx</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>=c10::nullopt, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>=c10::nullopt)</td></tr>
+<tr class="separator:a54bf7e9b54b5263cf039100cda517c34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adda552b8784184a2f17aa997e10869f9" id="r_adda552b8784184a2f17aa997e10869f9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9">pruned_array_lookup_from_row_idx_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings_offsets</a>)</td></tr>
+<tr class="separator:adda552b8784184a2f17aa997e10869f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__inplace__update__cpu_8cpp.html b/embedding__inplace__update__cpu_8cpp.html
new file mode 100644
index 000000000..d62289b71
--- /dev/null
+++ b/embedding__inplace__update__cpu_8cpp.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/embedding_inplace_ops/embedding_inplace_update_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7171c7990335cc008eec7387f12fe0ea.html">embedding_inplace_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_inplace_update_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;algorithm&gt;</code><br />
+<code>#include &lt;cmath&gt;</code><br />
+<code>#include &lt;functional&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__inplace__update_8h.html">fbgemm_gpu/embedding_inplace_update.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__inplace__update__gpu_8cpp.html b/embedding__inplace__update__gpu_8cpp.html
new file mode 100644
index 000000000..02d7feaf4
--- /dev/null
+++ b/embedding__inplace__update__gpu_8cpp.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/embedding_inplace_ops/embedding_inplace_update_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7171c7990335cc008eec7387f12fe0ea.html">embedding_inplace_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_inplace_update_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__inplace__update_8h.html">fbgemm_gpu/embedding_inplace_update.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__inplace__update__test_8cpp.html b/embedding__inplace__update__test_8cpp.html
new file mode 100644
index 000000000..7a9cfe080
--- /dev/null
+++ b/embedding__inplace__update__test_8cpp.html
@@ -0,0 +1,162 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/embedding_inplace_ops/embedding_inplace_update_test.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7171c7990335cc008eec7387f12fe0ea.html">embedding_inplace_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_inplace_update_test.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;folly/Random.h&gt;</code><br />
+<code>#include &lt;gtest/gtest.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__inplace__update_8h.html">fbgemm_gpu/embedding_inplace_update.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a602d9bde988d40aaa1d846c76f8d87c7" name="a602d9bde988d40aaa1d846c76f8d87c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a602d9bde988d40aaa1d846c76f8d87c7">&#9670;&#160;</a></span>get_D_bytes()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int32_t get_D_bytes </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> int32_t</td>          <td class="paramname"><span class="paramname"><em>table_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8eb96d7f557ba896e48fef81f259d7a5" name="a8eb96d7f557ba896e48fef81f259d7a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8eb96d7f557ba896e48fef81f259d7a5">&#9670;&#160;</a></span>TEST()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">EmbeddingInplaceUpdateTest</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">random_update</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac82e2990c8f2f7d3957f862975181a0" name="aac82e2990c8f2f7d3957f862975181a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac82e2990c8f2f7d3957f862975181a0">&#9670;&#160;</a></span>test_embedding_inplace_update()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> test_embedding_inplace_update </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__op__registration_8h.html b/embedding__op__registration_8h.html
new file mode 100644
index 000000000..c69299436
--- /dev/null
+++ b/embedding__op__registration_8h.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_op_registration.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_op_registration.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__ops__placeholder_8cpp.html b/embedding__ops__placeholder_8cpp.html
new file mode 100644
index 000000000..7121fad52
--- /dev/null
+++ b/embedding__ops__placeholder_8cpp.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_ops_placeholder.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">embedding_ops_placeholder.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__optimizer__split__device__kernel__template_8cuh.html b/embedding__optimizer__split__device__kernel__template_8cuh.html
new file mode 100644
index 000000000..4cc085e05
--- /dev/null
+++ b/embedding__optimizer__split__device__kernel__template_8cuh.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_optimizer_split_device_kernel_template.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_optimizer_split_device_kernel_template.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__optimizer__split__host__template_8cpp.html b/embedding__optimizer__split__host__template_8cpp.html
new file mode 100644
index 000000000..937d44a4f
--- /dev/null
+++ b/embedding__optimizer__split__host__template_8cpp.html
@@ -0,0 +1,169 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_optimizer_split_host_template.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_optimizer_split_host_template.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">m</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a043dbacfe97bbbca3dfe0675f0073939" name="a043dbacfe97bbbca3dfe0675f0073939"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a043dbacfe97bbbca3dfe0675f0073939">&#9670;&#160;</a></span>split_embedding_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> split_embedding_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{{ <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">optimizer</a> }}<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">_update</a>(</div>
+<div class="line">    <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>,</div>
+<div class="line">    <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>,</div>
+<div class="line">    <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>,</div>
+<div class="line">    <span class="keyword">const</span> <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2">grad_dev_weights</a>,</div>
+<div class="line">    <span class="keyword">const</span> <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e">grad_dev_indices</a>,</div>
+<div class="line">    <span class="keyword">const</span> <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>,</div>
+<div class="line">    <span class="keyword">const</span> <a class="code hl_typedef" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&amp; <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>,</div>
+<div class="line">    <span class="keyword">const</span> <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7">max_D</a>,</div>
+<div class="line">    <span class="keyword">const</span> <span class="keywordtype">bool</span> <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>,</div>
+<div class="line">    {{ <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">args</a>.split_function_args | <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">join</a>(<span class="stringliteral">&quot;, &quot;</span>) }})</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__backward__codegen__cuda_8cu_html_abc1167888f441327c12e300780ee568a"><div class="ttname"><a href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></div><div class="ttdeci">at::Tensor Tensor</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_backward_codegen_cuda.cu:15</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a6d8072fe7f1cbd1cf456e3ea8a440ad3"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:119</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a764f8ae801cd000c2a5cb4bb23f14299"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:120</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a0c2527424502280dfcf6276b49b41cdc"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const lxu_cache_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:58</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a17f61eb7bf7a7e4089982fbf69116da5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const uvm_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:57</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_ad4dd9cc51f1eccdf4626318632701868"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const weights_placements</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:59</div></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a18e7685a5fc29b232d08a33a75c44ca2"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2">grad_dev_weights</a></div><div class="ttdeci">template __global__ at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1959</div></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4b79f2e1c1afb0ee9291f6d406038bd7"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7">max_D</a></div><div class="ttdeci">template __global__ at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t max_D</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1967</div></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a5cc1b5faf7430930527acfac8e6b8068"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a></div><div class="ttdeci">template __global__ at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool stochastic_rounding</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1968</div></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_af8b6c324711f37bf86e87d3d74f65c2e"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e">grad_dev_indices</a></div><div class="ttdeci">template __global__ at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_dev_indices</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1961</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__optimizer__split__kernel__template_8cu.html b/embedding__optimizer__split__kernel__template_8cu.html
new file mode 100644
index 000000000..8f57e9a48
--- /dev/null
+++ b/embedding__optimizer__split__kernel__template_8cu.html
@@ -0,0 +1,179 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_optimizer_split_kernel_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_optimizer_split_kernel_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;gen_embedding_optimizer_{{ optimizer }}_split_device_kernel.cuh&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a69cc59925f75e23b97fe9e48e72bb900" name="a69cc59925f75e23b97fe9e48e72bb900"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69cc59925f75e23b97fe9e48e72bb900">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afab484072b9b8381500b14e31ba49364" name="afab484072b9b8381500b14e31ba49364"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afab484072b9b8381500b14e31ba49364">&#9670;&#160;</a></span>_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">{{ args.split_kernel_args|join(&quot;, &quot;) }}</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/embedding__optimizer__split__template_8cu.html b/embedding__optimizer__split__template_8cu.html
new file mode 100644
index 000000000..0f7c891d5
--- /dev/null
+++ b/embedding__optimizer__split__template_8cu.html
@@ -0,0 +1,194 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/embedding_optimizer_split_template.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html">codegen</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">embedding_optimizer_split_template.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a69cc59925f75e23b97fe9e48e72bb900" name="a69cc59925f75e23b97fe9e48e72bb900"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69cc59925f75e23b97fe9e48e72bb900">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afab484072b9b8381500b14e31ba49364" name="afab484072b9b8381500b14e31ba49364"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afab484072b9b8381500b14e31ba49364">&#9670;&#160;</a></span>_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">{{ args.split_kernel_args|join(&quot;, &quot;) }}</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/enum__utils_8h.html b/enum__utils_8h.html
new file mode 100644
index 000000000..86013b353
--- /dev/null
+++ b/enum__utils_8h.html
@@ -0,0 +1,260 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/enum_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">enum_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;string&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a769a65d91133d4f233bcf10280ff7a3c" name="a769a65d91133d4f233bcf10280ff7a3c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a769a65d91133d4f233bcf10280ff7a3c">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_CREATE_TAG</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_CREATE_TAG</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">module_name</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">struct </span>fbgemm_gpu_enum_tag_##module_name {};                          \</div>
+<div class="line">  <span class="keyword">template</span> &lt;&gt;                                                           \</div>
+<div class="line">  enum_registration&lt;struct fbgemm_gpu_enum_tag_##module_name&gt;*          \</div>
+<div class="line">      enum_registration&lt;                                                \</div>
+<div class="line">          <span class="keyword">struct </span>fbgemm_gpu_enum_tag_##module_name&gt;::registration_list; \</div>
+<div class="line">  extern template class enum_registration&lt;                              \</div>
+<div class="line">      struct fbgemm_gpu_enum_tag_##module_name&gt;;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="adc8e24189b6f5a58092ade0b27e197b1" name="adc8e24189b6f5a58092ade0b27e197b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc8e24189b6f5a58092ade0b27e197b1">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_GLOGAL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_GLOGAL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">module_name</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">template</span> <span class="keyword">class </span>enum_registration&lt;<a class="code hl_define" href="#aae161db28429e0e2aa9001448f52e2f4">FBGEMM_GPU_ENUM_TAG</a>(module_name)&gt;;          \</div>
+<div class="line">  <span class="keyword">template</span> &lt;&gt;                                                                  \</div>
+<div class="line">  enum_registration&lt;<a class="code hl_define" href="#aae161db28429e0e2aa9001448f52e2f4">FBGEMM_GPU_ENUM_TAG</a>(module_name)&gt;*                         \</div>
+<div class="line">      enum_registration&lt;<a class="code hl_define" href="#aae161db28429e0e2aa9001448f52e2f4">FBGEMM_GPU_ENUM_TAG</a>(module_name)&gt;::registration_list = \</div>
+<div class="line">          <span class="keyword">nullptr</span>;</div>
+<div class="ttc" id="aenum__utils_8h_html_aae161db28429e0e2aa9001448f52e2f4"><div class="ttname"><a href="#aae161db28429e0e2aa9001448f52e2f4">FBGEMM_GPU_ENUM_TAG</a></div><div class="ttdeci">#define FBGEMM_GPU_ENUM_TAG(module_name)</div><div class="ttdef"><b>Definition</b> enum_utils.h:26</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="aef8d28be61e5e22bac45bf59c53dabbd" name="aef8d28be61e5e22bac45bf59c53dabbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef8d28be61e5e22bac45bf59c53dabbd">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_ITEM</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_ITEM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">y, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">z</span>&#160;)&#160;&#160;&#160;  { #x #y, z }</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abcc6d46ce5e5452b5b49f96ae0aa67f3" name="abcc6d46ce5e5452b5b49f96ae0aa67f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcc6d46ce5e5452b5b49f96ae0aa67f3">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_OP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_OP</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">module_name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">op_name</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line"><span class="preprocessor">#op_name &quot;() -&gt; ((str, (str, int)[])[])&quot;,      \</span></div>
+<div class="line"><span class="preprocessor">      TORCH_FN(enum_query &lt;FBGEMM_GPU_ENUM_TAG(module_name)&gt;)</span></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a1fc46fffc78f3820ce4668b6b2a92b55" name="a1fc46fffc78f3820ce4668b6b2a92b55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fc46fffc78f3820ce4668b6b2a92b55">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_REGISTER_END</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_REGISTER_END&#160;&#160;&#160;);</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c1089cc9b549d33d50c20c14b348950" name="a3c1089cc9b549d33d50c20c14b348950"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c1089cc9b549d33d50c20c14b348950">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_REGISTER_START</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_REGISTER_START</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">module_name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">prefix, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">enum_name</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  enum_registration&lt;<a class="code hl_define" href="#aae161db28429e0e2aa9001448f52e2f4">FBGEMM_GPU_ENUM_TAG</a>(module_name)&gt; fbgemm_fpu_enum_reg_ \</div>
+<div class="line"><span class="preprocessor">      ## prefix ## enum_name( #prefix #enum_name,</span></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="aae161db28429e0e2aa9001448f52e2f4" name="aae161db28429e0e2aa9001448f52e2f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae161db28429e0e2aa9001448f52e2f4">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_TAG</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_GPU_ENUM_TAG</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">module_name</span></td><td>)</td>
+          <td>&#160;&#160;&#160;  struct fbgemm_gpu_enum_tag_##module_name</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/fbgemm__cuda__utils_8cuh.html b/fbgemm__cuda__utils_8cuh.html
new file mode 100644
index 000000000..d9ff35436
--- /dev/null
+++ b/fbgemm__cuda__utils_8cuh.html
@@ -0,0 +1,249 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/fbgemm_cuda_utils.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">fbgemm_cuda_utils.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAGraphsUtils.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/block/block_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_bf16.h&gt;</code><br />
+<code>#include &lt;cuda_fp16.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort&lt; K, V, Dir, Comp &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT&lt; N, PrimitiveType &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT&lt; STEP, input_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ae86238f4ca864fb4ea41318ece747ab4" id="r_ae86238f4ca864fb4ea41318ece747ab4"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ITEMS_PER_THREAD, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_THREADS_PER_BLOCK&gt; </td></tr>
+<tr class="memitem:ae86238f4ca864fb4ea41318ece747ab4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__inline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#ae86238f4ca864fb4ea41318ece747ab4">inclusive_sum_scan_kernel</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>(&amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">arr</a>)[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ITEMS_PER_THREAD</a>], <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> cub::BlockScan&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, <a class="el" href="metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517">NUM_THREADS_PER_BLOCK</a> &gt;::TempStorage &amp;<a class="el" href="namespacefbgemm__gpu.html#ad0fce99009259dbc5e5c0527eb5b3f64">temp_storage</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_flags</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">volatile</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_sums</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_prev</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_entries_per_block</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_id</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_multi_block</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">signal</a>)</td></tr>
+<tr class="separator:ae86238f4ca864fb4ea41318ece747ab4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ab78d230e0bbda883a8f34ca1e31d0929" name="ab78d230e0bbda883a8f34ca1e31d0929"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab78d230e0bbda883a8f34ca1e31d0929">&#9670;&#160;</a></span>__HALF2_TO_UI</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define __HALF2_TO_UI</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">var</span></td><td>)</td>
+          <td>&#160;&#160;&#160;*(reinterpret_cast&lt;unsigned int*&gt;(&amp;(var)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8888b6e919f4a14975d3110a7425407d" name="a8888b6e919f4a14975d3110a7425407d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8888b6e919f4a14975d3110a7425407d">&#9670;&#160;</a></span>DEVICE_INLINE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DEVICE_INLINE&#160;&#160;&#160;__device__ inline __attribute__((always_inline))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affe776513b24d84b39af8ab0930fef7f" name="affe776513b24d84b39af8ab0930fef7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affe776513b24d84b39af8ab0930fef7f">&#9670;&#160;</a></span>max</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define max</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">a, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a></span>&#160;)&#160;&#160;&#160;((a) &gt; (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>) ? (a) : (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac6afabdc09a49a433ee19d8a9486056d" name="ac6afabdc09a49a433ee19d8a9486056d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6afabdc09a49a433ee19d8a9486056d">&#9670;&#160;</a></span>min</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define min</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">a, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a></span>&#160;)&#160;&#160;&#160;((a) &lt; (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>) ? (a) : (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/fbgemm__tensor__accessor_8h.html b/fbgemm__tensor__accessor_8h.html
new file mode 100644
index 000000000..48c47ec92
--- /dev/null
+++ b/fbgemm__tensor__accessor_8h.html
@@ -0,0 +1,339 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/fbgemm_tensor_accessor.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">fbgemm_tensor_accessor.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;c10/macros/Macros.h&gt;</code><br />
+<code>#include &lt;c10/util/ArrayRef.h&gt;</code><br />
+<code>#include &lt;c10/util/Deprecated.h&gt;</code><br />
+<code>#include &lt;c10/util/Exception.h&gt;</code><br />
+<code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;cstddef&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac7d28de6473a715c6228c08b391476bb" name="ac7d28de6473a715c6228c08b391476bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7d28de6473a715c6228c08b391476bb">&#9670;&#160;</a></span>AT_X</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define AT_X&#160;&#160;&#160;GenericPackedTensorAccessor&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, PtrTraits, index_t&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae2a2547758e08761f973874a074b4fc1" name="ae2a2547758e08761f973874a074b4fc1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2a2547758e08761f973874a074b4fc1">&#9670;&#160;</a></span>MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">FUNC_NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TENSOR, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">N, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">PTR_TRAITS, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_NBITS</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  make_packed_tensor_accessor##INDEX_NBITS&lt;           \</div>
+<div class="line">      at::acc_type&lt;T, true&gt;,                          \</div>
+<div class="line">      N,                                              \</div>
+<div class="line">      PTR_TRAITS&gt;(TENSOR)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ad5bf508fef6a8c9528a8f1c316bfd491" name="ad5bf508fef6a8c9528a8f1c316bfd491"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5bf508fef6a8c9528a8f1c316bfd491">&#9670;&#160;</a></span>MAKE_PACKED_TENSOR_ACCESSOR_BASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define MAKE_PACKED_TENSOR_ACCESSOR_BASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">FUNC_NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TENSOR, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">N, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">PTR_TRAITS, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_NBITS</span>&#160;)&#160;&#160;&#160;  make_packed_tensor_accessor##INDEX_NBITS&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, PTR_TRAITS&gt;(TENSOR)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23a5f2ae4f72b11bd67c678ae14d9af7" name="a23a5f2ae4f72b11bd67c678ae14d9af7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23a5f2ae4f72b11bd67c678ae14d9af7">&#9670;&#160;</a></span>MAKE_PTA_ACC_WITH_NAME</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define MAKE_PTA_ACC_WITH_NAME</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">FUNC_NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TENSOR, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">N, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_NBITS</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="#ae2a2547758e08761f973874a074b4fc1">MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE</a>(                         \</div>
+<div class="line">      FUNC_NAME, TENSOR, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, at::RestrictPtrTraits, INDEX_NBITS)</div>
+<div class="ttc" id="afbgemm__tensor__accessor_8h_html_ae2a2547758e08761f973874a074b4fc1"><div class="ttname"><a href="#ae2a2547758e08761f973874a074b4fc1">MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE</a></div><div class="ttdeci">#define MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE( FUNC_NAME, TENSOR, T, N, PTR_TRAITS, INDEX_NBITS)</div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:569</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a2ee4b3e799d56c4d34c87190c37a7a64"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t T</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:61</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a614f4b016e2758186bd598bc3be6e6cf" name="a614f4b016e2758186bd598bc3be6e6cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a614f4b016e2758186bd598bc3be6e6cf">&#9670;&#160;</a></span>MAKE_PTA_WITH_NAME</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define MAKE_PTA_WITH_NAME</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">FUNC_NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TENSOR, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">N, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_NBITS</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="#ad5bf508fef6a8c9528a8f1c316bfd491">MAKE_PACKED_TENSOR_ACCESSOR_BASE</a>(                              \</div>
+<div class="line">      FUNC_NAME, TENSOR, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, at::RestrictPtrTraits, INDEX_NBITS)</div>
+<div class="ttc" id="afbgemm__tensor__accessor_8h_html_ad5bf508fef6a8c9528a8f1c316bfd491"><div class="ttname"><a href="#ad5bf508fef6a8c9528a8f1c316bfd491">MAKE_PACKED_TENSOR_ACCESSOR_BASE</a></div><div class="ttdeci">#define MAKE_PACKED_TENSOR_ACCESSOR_BASE( FUNC_NAME, TENSOR, T, N, PTR_TRAITS, INDEX_NBITS)</div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:565</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae5c092ed88e41832d415d06d837889b3" name="ae5c092ed88e41832d415d06d837889b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5c092ed88e41832d415d06d837889b3">&#9670;&#160;</a></span>make_packed_tensor_accessor32()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> , size_t N, template&lt; typename U &gt; class PtrTraits = at::DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, PtrTraits &gt; make_packed_tensor_accessor32 </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>tensor</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="add453d9931017b7ca11b84095566ae26" name="add453d9931017b7ca11b84095566ae26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#add453d9931017b7ca11b84095566ae26">&#9670;&#160;</a></span>make_packed_tensor_accessor64()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> , size_t N, template&lt; typename U &gt; class PtrTraits = at::DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>, N, PtrTraits &gt; make_packed_tensor_accessor64 </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>tensor</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/files.html b/files.html
new file mode 100644
index 000000000..bad18bb54
--- /dev/null
+++ b/files.html
@@ -0,0 +1,551 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="header">
+  <div class="headertitle"><div class="title">File List</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock">Here is a list of all files with brief descriptions:</div><div class="directory">
+<div class="levels">[detail level <span onclick="javascript:dynsection.toggleLevel(1);">1</span><span onclick="javascript:dynsection.toggleLevel(2);">2</span><span onclick="javascript:dynsection.toggleLevel(3);">3</span><span onclick="javascript:dynsection.toggleLevel(4);">4</span><span onclick="javascript:dynsection.toggleLevel(5);">5</span><span onclick="javascript:dynsection.toggleLevel(6);">6</span><span onclick="javascript:dynsection.toggleLevel(7);">7</span>]</div><table class="directory">
+<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="dynsection.toggleFolder('0_')">&#9660;</span><span id="img_0_" class="iconfopen" onclick="dynsection.toggleFolder('0_')">&#160;</span><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html" target="_self">_skbuild</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_0_" class="arrow" onclick="dynsection.toggleFolder('0_0_')">&#9658;</span><span id="img_0_0_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_')">&#160;</span><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html" target="_self">linux-x86_64-3.12</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_0_" class="arrow" onclick="dynsection.toggleFolder('0_0_0_')">&#9658;</span><span id="img_0_0_0_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_0_')">&#160;</span><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html" target="_self">cmake-build</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_0_0_0_" class="arrow" onclick="dynsection.toggleFolder('0_0_0_0_')">&#9658;</span><span id="img_0_0_0_0_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_0_0_')">&#160;</span><a class="el" href="dir_ae8e6ef04f6eeb9549906760d0097e6e.html" target="_self">CMakeFiles</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span id="arr_0_0_0_0_0_" class="arrow" onclick="dynsection.toggleFolder('0_0_0_0_0_')">&#9658;</span><span id="img_0_0_0_0_0_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_0_0_0_')">&#160;</span><a class="el" href="dir_5f55f9fa3600c80e31b55cfa7be0ede8.html" target="_self">3.28.1</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span id="arr_0_0_0_0_0_0_" class="arrow" onclick="dynsection.toggleFolder('0_0_0_0_0_0_')">&#9658;</span><span id="img_0_0_0_0_0_0_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_0_0_0_0_')">&#160;</span><a class="el" href="dir_dfdf575eb5c21ea09ad9fb656efb7738.html" target="_self">CompilerIdC</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:112px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="_c_make_c_compiler_id_8c.html" target="_self">CMakeCCompilerId.c</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_0_1_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><span id="arr_0_0_0_0_0_1_" class="arrow" onclick="dynsection.toggleFolder('0_0_0_0_0_1_')">&#9658;</span><span id="img_0_0_0_0_0_1_" class="iconfclosed" onclick="dynsection.toggleFolder('0_0_0_0_0_1_')">&#160;</span><a class="el" href="dir_d8fa031c2715d8d52539c7e4d4cc6d73.html" target="_self">CompilerIdCXX</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_0_0_1_0_" class="even" style="display:none;"><td class="entry"><span style="width:112px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html" target="_self">CMakeCXXCompilerId.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_1_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html" target="_self">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_2_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html" target="_self">gen_batch_index_select_dim0_backward_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_3_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html" target="_self">gen_batch_index_select_dim0_backward_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_4_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html" target="_self">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_5_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html" target="_self">gen_batch_index_select_dim0_forward_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_6_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html" target="_self">gen_batch_index_select_dim0_forward_kernel_small.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_7_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html" target="_self">gen_embedding_backward_adagrad_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_8_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_9_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_10_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_11_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_12_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_13_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_14_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_15_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_16_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_17_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_18_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_19_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_20_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_21_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_22_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_23_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_adam_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_24_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_25_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_26_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_27_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_28_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_29_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_30_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_31_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_32_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_33_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_34_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_35_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html" target="_self">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_36_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html" target="_self">gen_embedding_backward_dense_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_37_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_38_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_39_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_40_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_41_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_42_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_43_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_dense_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_44_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_45_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_46_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_47_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_48_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_49_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_50_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_51_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_52_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_lamb_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_53_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_54_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_55_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_56_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_57_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_58_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_59_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_60_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_61_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_62_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_63_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_64_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_65_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_66_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_67_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_68_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_69_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_70_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_none_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_71_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_72_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_73_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_74_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_75_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_76_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_77_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_78_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_79_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_80_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_81_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_82_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_83_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_84_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_85_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_86_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_87_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_88_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_89_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_90_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_91_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_92_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_93_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_94_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_95_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_96_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_97_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_98_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_99_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_100_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_101_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_102_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_103_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_104_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_105_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_106_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_107_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_108_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_109_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_110_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_111_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_112_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_113_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_114_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_115_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_116_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_117_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_118_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_119_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_120_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_121_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_122_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_123_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_124_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_125_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_126_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_127_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_128_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_129_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_130_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_131_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_132_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_133_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_134_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_135_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_136_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html" target="_self">gen_embedding_backward_sgd_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_137_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_138_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_139_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_140_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_141_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_142_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_143_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_144_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_145_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html" target="_self">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_146_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_147_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_148_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_149_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_150_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_151_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html" target="_self">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_152_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html" target="_self">gen_embedding_backward_split_adagrad.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_153_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html" target="_self">gen_embedding_backward_split_adagrad_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_154_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__adam_8cpp.html" target="_self">gen_embedding_backward_split_adam.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_155_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__adam__cpu_8cpp.html" target="_self">gen_embedding_backward_split_adam_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_156_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_157_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_158_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_159_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_160_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_161_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html" target="_self">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_162_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html" target="_self">gen_embedding_backward_split_approx_sgd.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_163_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__approx__sgd__cpu_8cpp.html" target="_self">gen_embedding_backward_split_approx_sgd_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_164_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__grad_8cu.html" target="_self">gen_embedding_backward_split_grad.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_165_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html" target="_self">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_166_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__lamb_8cpp.html" target="_self">gen_embedding_backward_split_lamb.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_167_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__lamb__cpu_8cpp.html" target="_self">gen_embedding_backward_split_lamb_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_168_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html" target="_self">gen_embedding_backward_split_lars_sgd.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_169_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__lars__sgd__cpu_8cpp.html" target="_self">gen_embedding_backward_split_lars_sgd_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_170_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__none_8cpp.html" target="_self">gen_embedding_backward_split_none.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_171_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__none__cpu_8cpp.html" target="_self">gen_embedding_backward_split_none_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_172_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html" target="_self">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_173_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html" target="_self">gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_174_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html" target="_self">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_175_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html" target="_self">gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_176_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_177_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_178_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_179_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_180_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_181_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_182_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_183_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html" target="_self">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_184_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__sgd_8cpp.html" target="_self">gen_embedding_backward_split_sgd.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_185_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html" target="_self">gen_embedding_backward_split_sgd_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_186_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_187_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_188_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html" target="_self">gen_embedding_forward_dense_unweighted_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_189_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html" target="_self">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_190_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html" target="_self">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_191_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_192_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_193_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html" target="_self">gen_embedding_forward_dense_weighted_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_194_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_195_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_196_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_197_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_198_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_199_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_200_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_201_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_202_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_203_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_204_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_205_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_206_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_207_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_208_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_209_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_210_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_211_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_212_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_213_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_214_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_215_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html" target="_self">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_216_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html" target="_self">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_217_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_218_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_219_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html" target="_self">gen_embedding_forward_split_unweighted_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_220_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html" target="_self">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_221_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html" target="_self">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_222_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html" target="_self">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_223_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_224_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_225_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html" target="_self">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_226_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_split_weighted_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_227_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_split_weighted_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_228_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html" target="_self">gen_embedding_forward_split_weighted_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_229_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html" target="_self">gen_embedding_forward_split_weighted_v2_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_230_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html" target="_self">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_231_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html" target="_self">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_232_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html" target="_self">gen_embedding_forward_split_weighted_vbe_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_233_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_234_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_adam_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_235_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_236_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_237_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_238_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_239_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__dense__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_dense_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_240_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_241_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_242_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__none__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_none_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_243_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_244_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_245_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_246_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_247_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_248_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_249_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_250_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_251_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_252_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html" target="_self">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_1_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_1_" class="arrow" onclick="dynsection.toggleFolder('1_')">&#9660;</span><span id="img_1_" class="iconfopen" onclick="dynsection.toggleFolder('1_')">&#160;</span><a class="el" href="dir_a36c4719283424f51e58ca3678e5dea3.html" target="_self">bench</a></td><td class="desc"></td></tr>
+<tr id="row_1_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="verify__fp16__stochastic__benchmark_8cu.html" target="_self">verify_fp16_stochastic_benchmark.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_2_" class="arrow" onclick="dynsection.toggleFolder('2_')">&#9660;</span><span id="img_2_" class="iconfopen" onclick="dynsection.toggleFolder('2_')">&#160;</span><a class="el" href="dir_0255d041b3ce7964bcd7b11954959c22.html" target="_self">codegen</a></td><td class="desc"></td></tr>
+<tr id="row_2_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html" target="_self">batch_index_select_dim0_cpu_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="batch__index__select__dim0__host_8cpp.html" target="_self">batch_index_select_dim0_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_2_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__dense__host_8cpp.html" target="_self">embedding_backward_dense_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_3_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__dense__host__cpu_8cpp.html" target="_self">embedding_backward_dense_host_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_4_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__cpu__approx__template_8cpp.html" target="_self">embedding_backward_split_cpu_approx_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_5_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__cpu__template_8cpp.html" target="_self">embedding_backward_split_cpu_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_6_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__grad__template_8cu.html" target="_self">embedding_backward_split_grad_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_7_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__host__cpu__template_8cpp.html" target="_self">embedding_backward_split_host_cpu_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_8_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__host__template_8cpp.html" target="_self">embedding_backward_split_host_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_9_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__indice__weights__template_8cu.html" target="_self">embedding_backward_split_indice_weights_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_10_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__kernel__cta__template_8cu.html" target="_self">embedding_backward_split_kernel_cta_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_11_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__kernel__warp__template_8cu.html" target="_self">embedding_backward_split_kernel_warp_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_12_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__split__template_8cu.html" target="_self">embedding_backward_split_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_13_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__bounds__check_8cu.html" target="_self">embedding_bounds_check.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_14_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__bounds__check__host_8cpp.html" target="_self">embedding_bounds_check_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_15_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__bounds__check__host__cpu_8cpp.html" target="_self">embedding_bounds_check_host_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_16_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__cpu__template_8cpp.html" target="_self">embedding_forward_quantized_cpu_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_17_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__host_8cpp.html" target="_self">embedding_forward_quantized_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_18_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html" target="_self">embedding_forward_quantized_host_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_19_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__split__lookup_8cu.html" target="_self">embedding_forward_quantized_split_lookup.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_20_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html" target="_self">embedding_forward_quantized_split_nbit_host_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_21_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__quantized__split__nbit__kernel__template_8cu.html" target="_self">embedding_forward_quantized_split_nbit_kernel_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_22_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__cpu_8cpp.html" target="_self">embedding_forward_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_23_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__cpu_8h.html" target="_self">embedding_forward_split_cpu.h</a></td><td class="desc"></td></tr>
+<tr id="row_2_24_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__kernel__nobag__small__template_8cu.html" target="_self">embedding_forward_split_kernel_nobag_small_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_25_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__kernel__template_8cu.html" target="_self">embedding_forward_split_kernel_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_26_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html" target="_self">embedding_forward_split_kernel_v2_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_27_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__meta__template_8cpp.html" target="_self">embedding_forward_split_meta_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_28_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__split__template_8cu.html" target="_self">embedding_forward_split_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_29_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__forward__template__helpers_8cuh.html" target="_self">embedding_forward_template_helpers.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_2_30_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__op__registration_8h.html" target="_self">embedding_op_registration.h</a></td><td class="desc"></td></tr>
+<tr id="row_2_31_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__ops__placeholder_8cpp.html" target="_self">embedding_ops_placeholder.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_32_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__optimizer__split__device__kernel__template_8cuh.html" target="_self">embedding_optimizer_split_device_kernel_template.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_2_33_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__optimizer__split__host__template_8cpp.html" target="_self">embedding_optimizer_split_host_template.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_2_34_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__optimizer__split__kernel__template_8cu.html" target="_self">embedding_optimizer_split_kernel_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_2_35_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__optimizer__split__template_8cu.html" target="_self">embedding_optimizer_split_template.cu</a></td><td class="desc"></td></tr>
+<tr id="row_3_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_3_" class="arrow" onclick="dynsection.toggleFolder('3_')">&#9660;</span><span id="img_3_" class="iconfopen" onclick="dynsection.toggleFolder('3_')">&#160;</span><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html" target="_self">include</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_3_0_" class="arrow" onclick="dynsection.toggleFolder('3_0_')">&#9658;</span><span id="img_3_0_" class="iconfclosed" onclick="dynsection.toggleFolder('3_0_')">&#160;</span><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html" target="_self">fbgemm_gpu</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="bench__utils_8cuh.html" target="_self">bench_utils.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cpu__utils_8h.html" target="_self">cpu_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cub__namespace__postfix_8cuh.html" target="_self">cub_namespace_postfix.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cub__namespace__prefix_8cuh.html" target="_self">cub_namespace_prefix.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_4_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cuda__utils_8cuh.html" target="_self">cuda_utils.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_5_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cumem__utils_8h.html" target="_self">cumem_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_6_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="dispatch__macros_8h.html" target="_self">dispatch_macros.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_7_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__backward__template__helpers_8cuh.html" target="_self">embedding_backward_template_helpers.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_8_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__common_8h.html" target="_self">embedding_common.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_9_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__inplace__update_8h.html" target="_self">embedding_inplace_update.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_10_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="enum__utils_8h.html" target="_self">enum_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_11_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="fbgemm__cuda__utils_8cuh.html" target="_self">fbgemm_cuda_utils.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_12_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="fbgemm__tensor__accessor_8h.html" target="_self">fbgemm_tensor_accessor.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_13_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="input__combine_8h.html" target="_self">input_combine.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_14_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="layout__transform__ops_8cuh.html" target="_self">layout_transform_ops.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_15_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="merge__pooled__embeddings_8h.html" target="_self">merge_pooled_embeddings.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_16_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="ops__utils_8h.html" target="_self">ops_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_17_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops_8h.html" target="_self">permute_pooled_embedding_ops.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_18_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__split_8h.html" target="_self">permute_pooled_embedding_ops_split.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_19_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embs__function_8h.html" target="_self">permute_pooled_embs_function.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_20_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embs__function__split_8h.html" target="_self">permute_pooled_embs_function_split.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_21_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops_8cuh.html" target="_self">quantize_ops.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_22_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops__utils_8h.html" target="_self">quantize_ops_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_23_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops_8cuh.html" target="_self">sparse_ops.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_24_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops_8h.html" target="_self">sparse_ops.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_25_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops__utils_8h.html" target="_self">sparse_ops_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_26_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__cache__cuda_8cuh.html" target="_self">split_embeddings_cache_cuda.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_27_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__utils_8cuh.html" target="_self">split_embeddings_utils.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_3_0_28_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="topology__utils_8h.html" target="_self">topology_utils.h</a></td><td class="desc"></td></tr>
+<tr id="row_4_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_4_" class="arrow" onclick="dynsection.toggleFolder('4_')">&#9660;</span><span id="img_4_" class="iconfopen" onclick="dynsection.toggleFolder('4_')">&#160;</span><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html" target="_self">src</a></td><td class="desc"></td></tr>
+<tr id="row_4_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_0_" class="arrow" onclick="dynsection.toggleFolder('4_0_')">&#9658;</span><span id="img_4_0_" class="iconfclosed" onclick="dynsection.toggleFolder('4_0_')">&#160;</span><a class="el" href="dir_7171c7990335cc008eec7387f12fe0ea.html" target="_self">embedding_inplace_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_0_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__inplace__update_8cu.html" target="_self">embedding_inplace_update.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_0_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__inplace__update__cpu_8cpp.html" target="_self">embedding_inplace_update_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_0_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__inplace__update__gpu_8cpp.html" target="_self">embedding_inplace_update_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_0_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="embedding__inplace__update__test_8cpp.html" target="_self">embedding_inplace_update_test.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_1_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_1_" class="arrow" onclick="dynsection.toggleFolder('4_1_')">&#9658;</span><span id="img_4_1_" class="iconfclosed" onclick="dynsection.toggleFolder('4_1_')">&#160;</span><a class="el" href="dir_47b3f8f6a06f015d543fc51782f25cbc.html" target="_self">input_combine_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_1_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="input__combine_8cu.html" target="_self">input_combine.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_1_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="input__combine__cpu_8cpp.html" target="_self">input_combine_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_1_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="input__combine__gpu_8cpp.html" target="_self">input_combine_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_2_" class="arrow" onclick="dynsection.toggleFolder('4_2_')">&#9658;</span><span id="img_4_2_" class="iconfclosed" onclick="dynsection.toggleFolder('4_2_')">&#160;</span><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html" target="_self">jagged_tensor_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html" target="_self">batched_dense_vec_jagged_2d_mul_backward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html" target="_self">batched_dense_vec_jagged_2d_mul_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__tensor__ops_2common_8cuh.html" target="_self">common.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="dense__to__jagged__forward_8cu.html" target="_self">dense_to_jagged_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_4_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__dense__bmm__forward_8cu.html" target="_self">jagged_dense_bmm_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_5_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html" target="_self">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_6_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html" target="_self">jagged_dense_elementwise_mul_backward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_7_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html" target="_self">jagged_dense_elementwise_mul_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_8_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__index__add__2d__forward_8cu.html" target="_self">jagged_index_add_2d_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_9_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__index__select__2d__forward_8cu.html" target="_self">jagged_index_select_2d_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_10_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__jagged__bmm__forward_8cu.html" target="_self">jagged_jagged_bmm_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_11_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__softmax__backward_8cu.html" target="_self">jagged_softmax_backward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_12_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__softmax__forward_8cu.html" target="_self">jagged_softmax_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_13_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__tensor__ops_8cu.html" target="_self">jagged_tensor_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_14_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__tensor__ops__autograd_8cpp.html" target="_self">jagged_tensor_ops_autograd.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_15_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__tensor__ops__cpu_8cpp.html" target="_self">jagged_tensor_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_16_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__tensor__ops__meta_8cpp.html" target="_self">jagged_tensor_ops_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_17_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__to__padded__dense__backward_8cu.html" target="_self">jagged_to_padded_dense_backward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_18_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__to__padded__dense__forward_8cu.html" target="_self">jagged_to_padded_dense_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_19_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="jagged__unique__indices_8cu.html" target="_self">jagged_unique_indices.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_20_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="keyed__jagged__index__select__dim1_8cu.html" target="_self">keyed_jagged_index_select_dim1.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_21_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="stacked__jagged__1d__to__dense_8cu.html" target="_self">stacked_jagged_1d_to_dense.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_2_22_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="stacked__jagged__2d__to__dense_8cu.html" target="_self">stacked_jagged_2d_to_dense.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_3_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_3_" class="arrow" onclick="dynsection.toggleFolder('4_3_')">&#9658;</span><span id="img_4_3_" class="iconfclosed" onclick="dynsection.toggleFolder('4_3_')">&#160;</span><a class="el" href="dir_897ef76b26d94e0feb8fb6e0621cd742.html" target="_self">layout_transform_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_3_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="layout__transform__ops_8cu.html" target="_self">layout_transform_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_3_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="layout__transform__ops__cpu_8cpp.html" target="_self">layout_transform_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_3_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="layout__transform__ops__gpu_8cpp.html" target="_self">layout_transform_ops_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_4_" class="arrow" onclick="dynsection.toggleFolder('4_4_')">&#9658;</span><span id="img_4_4_" class="iconfclosed" onclick="dynsection.toggleFolder('4_4_')">&#160;</span><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html" target="_self">memory_utils</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils_2common_8cuh.html" target="_self">common.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils_2common_8h.html" target="_self">common.h</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils_8cpp.html" target="_self">memory_utils.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils_8cu.html" target="_self">memory_utils.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_4_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils__ops_8cpp.html" target="_self">memory_utils_ops.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_5_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils__ops_8cu.html" target="_self">memory_utils_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_4_6_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="memory__utils__ops__cpu_8cpp.html" target="_self">memory_utils_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_5_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_5_" class="arrow" onclick="dynsection.toggleFolder('4_5_')">&#9658;</span><span id="img_4_5_" class="iconfclosed" onclick="dynsection.toggleFolder('4_5_')">&#160;</span><a class="el" href="dir_02a03557abfde8453507651f5e287abe.html" target="_self">merge_pooled_embedding_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_5_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html" target="_self">merge_pooled_embedding_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_5_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html" target="_self">merge_pooled_embedding_ops_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_6_" class="arrow" onclick="dynsection.toggleFolder('4_6_')">&#9658;</span><span id="img_4_6_" class="iconfclosed" onclick="dynsection.toggleFolder('4_6_')">&#160;</span><a class="el" href="dir_276218242e4c9e66d5a5475a5ec0acdc.html" target="_self">metric_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_6_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="metric__ops_8cu.html" target="_self">metric_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_6_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="metric__ops_8h.html" target="_self">metric_ops.h</a></td><td class="desc"></td></tr>
+<tr id="row_4_6_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="metric__ops__host_8cpp.html" target="_self">metric_ops_host.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_7_" class="arrow" onclick="dynsection.toggleFolder('4_7_')">&#9658;</span><span id="img_4_7_" class="iconfclosed" onclick="dynsection.toggleFolder('4_7_')">&#160;</span><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html" target="_self">permute_pooled_embedding_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__function_8cpp.html" target="_self">permute_pooled_embedding_function.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops_8cu.html" target="_self">permute_pooled_embedding_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html" target="_self">permute_pooled_embedding_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_3_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html" target="_self">permute_pooled_embedding_ops_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_4_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__split_8cu.html" target="_self">permute_pooled_embedding_ops_split.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_5_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html" target="_self">permute_pooled_embedding_ops_split_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_7_6_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html" target="_self">permute_pooled_embedding_ops_split_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_8_" class="arrow" onclick="dynsection.toggleFolder('4_8_')">&#9658;</span><span id="img_4_8_" class="iconfclosed" onclick="dynsection.toggleFolder('4_8_')">&#160;</span><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html" target="_self">quantize_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops_2common_8cuh.html" target="_self">common.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__bfloat16_8cu.html" target="_self">quantize_bfloat16.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__fp8__rowwise_8cu.html" target="_self">quantize_fp8_rowwise.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__fused__8bit__rowwise_8cu.html" target="_self">quantize_fused_8bit_rowwise.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_4_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__fused__nbit__rowwise_8cu.html" target="_self">quantize_fused_nbit_rowwise.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_5_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__hfp8_8cu.html" target="_self">quantize_hfp8.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_6_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__msfp_8cu.html" target="_self">quantize_msfp.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_7_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops__cpu_8cpp.html" target="_self">quantize_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_8_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops__gpu_8cpp.html" target="_self">quantize_ops_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_9_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__ops__meta_8cpp.html" target="_self">quantize_ops_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_8_10_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="quantize__padded__fp8__rowwise_8cu.html" target="_self">quantize_padded_fp8_rowwise.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_9_" class="arrow" onclick="dynsection.toggleFolder('4_9_')">&#9658;</span><span id="img_4_9_" class="iconfclosed" onclick="dynsection.toggleFolder('4_9_')">&#160;</span><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html" target="_self">sparse_ops</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops_2common_8cuh.html" target="_self">common.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__async__cumsum_8cu.html" target="_self">sparse_async_cumsum.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__batched__unary__embeddings_8cu.html" target="_self">sparse_batched_unary_embeddings.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_3_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__block__bucketize__features_8cu.html" target="_self">sparse_block_bucketize_features.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_4_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__bucketize__features_8cu.html" target="_self">sparse_bucketize_features.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_5_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__compute__frequency__sequence_8cu.html" target="_self">sparse_compute_frequency_sequence.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_6_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__expand__into__jagged__permute_8cu.html" target="_self">sparse_expand_into_jagged_permute.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_7_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__group__index_8cu.html" target="_self">sparse_group_index.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_8_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__index__add_8cu.html" target="_self">sparse_index_add.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_9_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__index__select_8cu.html" target="_self">sparse_index_select.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_10_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__invert__permute_8cu.html" target="_self">sparse_invert_permute.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_11_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops__cpu_8cpp.html" target="_self">sparse_ops_cpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_12_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops__gpu_8cpp.html" target="_self">sparse_ops_gpu.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_13_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops__meta_8cpp.html" target="_self">sparse_ops_meta.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_14_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__pack__segments__backward_8cu.html" target="_self">sparse_pack_segments_backward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_15_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__pack__segments__forward_8cu.html" target="_self">sparse_pack_segments_forward.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_16_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__permute102_8cu.html" target="_self">sparse_permute102.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_17_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__permute__1d_8cu.html" target="_self">sparse_permute_1d.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_18_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__permute__2d_8cu.html" target="_self">sparse_permute_2d.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_19_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__permute__embeddings_8cu.html" target="_self">sparse_permute_embeddings.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_20_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__range_8cu.html" target="_self">sparse_range.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_21_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__reorder__batched__ad_8cu.html" target="_self">sparse_reorder_batched_ad.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_22_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__segment__sum__csr_8cu.html" target="_self">sparse_segment_sum_csr.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_9_23_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__zipf_8cu.html" target="_self">sparse_zipf.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_10_" class="arrow" onclick="dynsection.toggleFolder('4_10_')">&#9658;</span><span id="img_4_10_" class="iconfclosed" onclick="dynsection.toggleFolder('4_10_')">&#160;</span><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html" target="_self">split_embeddings_cache</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__cache_2common_8cuh.html" target="_self">common.cuh</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__cache_2common_8h.html" target="_self">common.h</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lfu__cache__find_8cu.html" target="_self">lfu_cache_find.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_3_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lfu__cache__populate_8cu.html" target="_self">lfu_cache_populate.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_4_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lfu__cache__populate__byte_8cpp.html" target="_self">lfu_cache_populate_byte.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_5_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lfu__cache__populate__byte_8cu.html" target="_self">lfu_cache_populate_byte.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_6_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="linearize__cache__indices_8cpp.html" target="_self">linearize_cache_indices.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_7_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="linearize__cache__indices_8cu.html" target="_self">linearize_cache_indices.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_8_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lru__cache__find_8cu.html" target="_self">lru_cache_find.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_9_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lru__cache__populate_8cu.html" target="_self">lru_cache_populate.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_10_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lru__cache__populate__byte_8cpp.html" target="_self">lru_cache_populate_byte.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_11_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lru__cache__populate__byte_8cu.html" target="_self">lru_cache_populate_byte.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_12_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lxu__cache_8cpp.html" target="_self">lxu_cache.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_13_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="lxu__cache_8cu.html" target="_self">lxu_cache.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_14_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="reset__weight__momentum_8cu.html" target="_self">reset_weight_momentum.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_15_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__cache__ops_8cpp.html" target="_self">split_embeddings_cache_ops.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_10_16_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__cache__ops_8cu.html" target="_self">split_embeddings_cache_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_11_" class="arrow" onclick="dynsection.toggleFolder('4_11_')">&#9658;</span><span id="img_4_11_" class="iconfclosed" onclick="dynsection.toggleFolder('4_11_')">&#160;</span><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html" target="_self">split_embeddings_utils</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="generate__vbe__metadata_8cu.html" target="_self">generate_vbe_metadata.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="get__infos__metadata_8cu.html" target="_self">get_infos_metadata.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="radix__sort__pairs_8cu.html" target="_self">radix_sort_pairs.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_3_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="split__embeddings__utils_8cpp.html" target="_self">split_embeddings_utils.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_11_4_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="transpose__embedding__input_8cu.html" target="_self">transpose_embedding_input.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_4_12_" class="arrow" onclick="dynsection.toggleFolder('4_12_')">&#9658;</span><span id="img_4_12_" class="iconfclosed" onclick="dynsection.toggleFolder('4_12_')">&#160;</span><a class="el" href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html" target="_self">ssd_split_embeddings_cache</a></td><td class="desc"></td></tr>
+<tr id="row_4_12_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html" target="_self">ssd_split_embeddings_cache_cuda.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_12_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="ssd__split__table__batched__embeddings_8cpp.html" target="_self">ssd_split_table_batched_embeddings.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_4_12_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="ssd__table__batched__embeddings_8h.html" target="_self">ssd_table_batched_embeddings.h</a></td><td class="desc"></td></tr>
+<tr id="row_4_13_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="histogram__binning__calibration__ops_8cu.html" target="_self">histogram_binning_calibration_ops.cu</a></td><td class="desc"></td></tr>
+<tr id="row_4_14_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="topology__utils_8cpp.html" target="_self">topology_utils.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_5_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_5_" class="arrow" onclick="dynsection.toggleFolder('5_')">&#9660;</span><span id="img_5_" class="iconfopen" onclick="dynsection.toggleFolder('5_')">&#160;</span><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html" target="_self">test</a></td><td class="desc"></td></tr>
+<tr id="row_5_0_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="cpu__kernel__test_8cpp.html" target="_self">cpu_kernel_test.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_5_1_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="sparse__ops__utils__test_8cpp.html" target="_self">sparse_ops_utils_test.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_5_2_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="tensor__assert__test_8cpp.html" target="_self">tensor_assert_test.cpp</a></td><td class="desc"></td></tr>
+<tr id="row_5_3_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icondoc"></span><a class="el" href="uvm__cache__miss__emulate__test_8cpp.html" target="_self">uvm_cache_miss_emulate_test.cpp</a></td><td class="desc"></td></tr>
+</table>
+</div><!-- directory -->
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions.html b/functions.html
new file mode 100644
index 000000000..1b4444fc2
--- /dev/null
+++ b/functions.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>a&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a27075551b75deec4b6f30d368075d852">Half4</a>, <a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html#a943da41846f7804fa8edd8b012551545">StochasticRoundingRNGState</a></li>
+<li>acc&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#accb1990c79cc9a9c3ca84d635d589ca4">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ae7a59aea3ae02e7c3c40b93e77208b3a">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f332e6824c0bf94b367c027c6c91595">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af835160660d81c33fb2f1f42017452fb">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a17543b514b8298a1e94b5671db506366">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>add()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a3421b900475f40701fb4c0c1c542744c">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a5686a6ec8884ddf2ad633d735d181011">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ac26f750f3fa72d8b137026cc8726972f">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>add_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae0cdda7691531bfb7975dad742ff3984">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; float &gt;</a></li>
+<li>at()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_b.html b/functions_b.html
new file mode 100644
index 000000000..9c38e33d8
--- /dev/null
+++ b/functions_b.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>b&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a85c654c77d6c3fc7709e8dd1e7ec4a5e">Half4</a></li>
+<li>backward()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#ac7ddba5222bfda33f8a498f8394349bf">PermutePooledEmbsFunction</a>, <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#ad62a42e85be3aa7f972677a4f7b710f9">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></li>
+<li>bounds_check_()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_c.html b/functions_c.html
new file mode 100644
index 000000000..2ef6430c3
--- /dev/null
+++ b/functions_c.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cache_row_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a8ba350d1da8749a0975ab4c1f645de70">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>column_segment_ids&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a1e60e73bdb48b0daa00b9f6caa8c6728">HyperCompressedSparseColumn</a></li>
+<li>column_segment_indices&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad90d05e46d82122e7688be758b7cb43a">HyperCompressedSparseColumn</a></li>
+<li>column_segment_ptr&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad1d5cb09cff5c55cbb74931bc58d8080">HyperCompressedSparseColumn</a></li>
+<li>compact()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a043cdfc194924194e381a986c229569e">EmbeddingRocksDB</a></li>
+<li>compact_if_necessary()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a92b07dcd61720ad3a72dbbad89c26514">EmbeddingRocksDB</a></li>
+<li>consumer_queue_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a794bafa095540403ada855b817d1d367">Initializer</a></li>
+<li>copy()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a140a9bcb80dcfae69a427d885d148952">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad6a7665bbc9596b7b9123c9a0605fe1c">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8af22674533453883301576ae485699c">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aa3322732b0a44cf924b89a066f4503d4">Vec4T&lt; float &gt;</a></li>
+<li>copy_str()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_d.html b/functions_d.html
new file mode 100644
index 000000000..9a0dea2b4
--- /dev/null
+++ b/functions_d.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>D()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#aa0904583fc7c962f6ae008052d6dadf7">FixedDivisor</a></li>
+<li>data()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>data_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>dim_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a844805bf936642eb8849d76b506abf8d">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>Div()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a74e5cb4569d6d48cbc0ee32674a7e374">FixedDivisor</a></li>
+<li>div()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">Vec4AccT</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#abea2bdfe3649f1b944a15453e78ae523">FixedDivisor</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_e.html b/functions_e.html
new file mode 100644
index 000000000..93eea805b
--- /dev/null
+++ b/functions_e.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>element_wise_mul_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a077873e0dd3516731c2302c7b3dee475">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; float &gt;</a></li>
+<li>EmbeddingRocksDB()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a703b26ce10b84fa35ea496114f1ebbb5">EmbeddingRocksDB</a></li>
+<li>enum_query()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a84cad106fb24ea59687f6708d197cc64">enum_registration&lt; T &gt;</a></li>
+<li>enum_registration()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afa13a8542c6dde450214a387cacf3a9b">enum_registration&lt; T &gt;</a></li>
+<li>evict()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a64c9f91fe6b60f7294ce6bb363bdb234">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_eval.html b/functions_eval.html
new file mode 100644
index 000000000..069461afe
--- /dev/null
+++ b/functions_eval.html
@@ -0,0 +1,83 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Enumerator</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all enum values with links to the classes they belong to:</div><ul>
+<li>value&#160;:&#160;<a class="el" href="structlog2__calc.html#a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9">log2_calc&lt; x &gt;</a>, <a class="el" href="structlog2__calc__.html#a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9">log2_calc_&lt; x &gt;</a>, <a class="el" href="structlog2__calc___3_010_01_4.html#adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9">log2_calc_&lt; 0 &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_f.html b/functions_f.html
new file mode 100644
index 000000000..68d2dadc1
--- /dev/null
+++ b/functions_f.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>FixedDivisor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a80d1fd876167b0bbb2d6a7ebdaa97270">FixedDivisor</a></li>
+<li>flush()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#adac116554b543b7c4228c018a85882f5">EmbeddingRocksDB</a></li>
+<li>flush_if_necessary()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a5e5bb9c575c52445a77bd0c39afc50bb">EmbeddingRocksDB</a></li>
+<li>fma()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ad5c1e8194ecc27d73fb5477bc6795df8">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af82504393e0e09a157a40980598f626b">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad3b821b9b1862e7970a798dcc105dce8">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>fma_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5914148b281516a23c9786a11d6675ad">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5914148b281516a23c9786a11d6675ad">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a935586b35f2e7d90ec234784a8a5d2b8">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af7ca249b197579ed0c1e65179d406b92">Vec4T&lt; float &gt;</a></li>
+<li>forward()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#a278e4d6a68c0e694370831a0d04a2918">PermutePooledEmbsFunction</a>, <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#a83e4292464a5708945ca80a1f2171a27">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></li>
+<li>func_name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func.html b/functions_func.html
new file mode 100644
index 000000000..89cd04a3a
--- /dev/null
+++ b/functions_func.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>add()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a3421b900475f40701fb4c0c1c542744c">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a5686a6ec8884ddf2ad633d735d181011">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ac26f750f3fa72d8b137026cc8726972f">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>add_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae0cdda7691531bfb7975dad742ff3984">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af3cbc396133203521c050935239eebe2">Vec4T&lt; float &gt;</a></li>
+<li>at()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_b.html b/functions_func_b.html
new file mode 100644
index 000000000..6a9a86efd
--- /dev/null
+++ b/functions_func_b.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>backward()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#ac7ddba5222bfda33f8a498f8394349bf">PermutePooledEmbsFunction</a>, <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#ad62a42e85be3aa7f972677a4f7b710f9">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></li>
+<li>bounds_check_()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_c.html b/functions_func_c.html
new file mode 100644
index 000000000..d6a97c289
--- /dev/null
+++ b/functions_func_c.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>compact()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a043cdfc194924194e381a986c229569e">EmbeddingRocksDB</a></li>
+<li>compact_if_necessary()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a92b07dcd61720ad3a72dbbad89c26514">EmbeddingRocksDB</a></li>
+<li>copy()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a140a9bcb80dcfae69a427d885d148952">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad6a7665bbc9596b7b9123c9a0605fe1c">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8af22674533453883301576ae485699c">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aa3322732b0a44cf924b89a066f4503d4">Vec4T&lt; float &gt;</a></li>
+<li>copy_str()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_d.html b/functions_func_d.html
new file mode 100644
index 000000000..b10bea37f
--- /dev/null
+++ b/functions_func_d.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>D()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#aa0904583fc7c962f6ae008052d6dadf7">FixedDivisor</a></li>
+<li>data()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>Div()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a74e5cb4569d6d48cbc0ee32674a7e374">FixedDivisor</a></li>
+<li>div()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">Vec4AccT</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#abea2bdfe3649f1b944a15453e78ae523">FixedDivisor</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_e.html b/functions_func_e.html
new file mode 100644
index 000000000..6ca5393f2
--- /dev/null
+++ b/functions_func_e.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>element_wise_mul_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a077873e0dd3516731c2302c7b3dee475">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8c36671f882604ae41f214e978ebf04b">Vec4T&lt; float &gt;</a></li>
+<li>EmbeddingRocksDB()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a703b26ce10b84fa35ea496114f1ebbb5">EmbeddingRocksDB</a></li>
+<li>enum_query()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a84cad106fb24ea59687f6708d197cc64">enum_registration&lt; T &gt;</a></li>
+<li>enum_registration()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afa13a8542c6dde450214a387cacf3a9b">enum_registration&lt; T &gt;</a></li>
+<li>evict()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a64c9f91fe6b60f7294ce6bb363bdb234">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_f.html b/functions_func_f.html
new file mode 100644
index 000000000..93f4f547a
--- /dev/null
+++ b/functions_func_f.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>FixedDivisor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a80d1fd876167b0bbb2d6a7ebdaa97270">FixedDivisor</a></li>
+<li>flush()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#adac116554b543b7c4228c018a85882f5">EmbeddingRocksDB</a></li>
+<li>flush_if_necessary()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a5e5bb9c575c52445a77bd0c39afc50bb">EmbeddingRocksDB</a></li>
+<li>fma()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ad5c1e8194ecc27d73fb5477bc6795df8">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af82504393e0e09a157a40980598f626b">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad3b821b9b1862e7970a798dcc105dce8">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>fma_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5914148b281516a23c9786a11d6675ad">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5914148b281516a23c9786a11d6675ad">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a935586b35f2e7d90ec234784a8a5d2b8">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af7ca249b197579ed0c1e65179d406b92">Vec4T&lt; float &gt;</a></li>
+<li>forward()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html#a278e4d6a68c0e694370831a0d04a2918">PermutePooledEmbsFunction</a>, <a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#a83e4292464a5708945ca80a1f2171a27">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_g.html b/functions_func_g.html
new file mode 100644
index 000000000..495ebb191
--- /dev/null
+++ b/functions_func_g.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>GenericPackedTensorAccessor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+<li>GenericPackedTensorAccessorBase()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>get()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a9a5671e5de645f247452456ffdfa81a9">EmbeddingRocksDB</a></li>
+<li>get_cuda()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#ac8082829ce873543f6388ddbd16362e8">EmbeddingRocksDB</a></li>
+<li>getPointer()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html#a53ef47c469305fb8b5427b2a0063db6f">SharedMemory&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html#a11507d418a31c798c09f74aa6569fb72">SharedMemory&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html#a3472f2fcb0b65202627a7a5d0b47ab8f">SharedMemory&lt; int32_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html#ac04ebca5545952c6185a2693bc5d9fc9">SharedMemory&lt; int64_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html#a79e2902e4ab8379789578754af90253f">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html#aa277fc58794548c1d2619afa9cd0be9e">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></li>
+<li>gt()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_comparator.html#a869e6734f5357dab7a63300629b414c8">Comparator&lt; T &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_i.html b/functions_func_i.html
new file mode 100644
index 000000000..2c4501ae8
--- /dev/null
+++ b/functions_func_i.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>index_add()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_fma()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_weighted_store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>Initializer()&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#af5e246dd12f1a6c4e06ab77a41bd0590">Initializer</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_l.html b/functions_func_l.html
new file mode 100644
index 000000000..b1bb90a5a
--- /dev/null
+++ b/functions_func_l.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>load()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad300c1cf97abb3337915a7b9616b371e">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b08d5d5c065fbbe307dfa9237f58dc7">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a86807843e011cecc10c8f37761f5fc20">Vec4StepT&lt; STEP, uint8_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#afaf3bc4be251007b23417bf53b8223db">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#afaf3bc4be251007b23417bf53b8223db">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a889b0ea41fd15897021ab06b2d62bf29">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>load_qparams()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a5f3a7bac9f71533d09bb41e67708ffc2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>lt()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_comparator.html#aff9ffad7ca52493418c969769327b704">Comparator&lt; T &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_m.html b/functions_func_m.html
new file mode 100644
index 000000000..967ed58ff
--- /dev/null
+++ b/functions_func_m.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>Mod()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a604d46db75c43e0cd210e5b2ab2bc7e6">FixedDivisor</a></li>
+<li>mul()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>mul_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; float &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_o.html b/functions_func_o.html
new file mode 100644
index 000000000..a7b5aa62e
--- /dev/null
+++ b/functions_func_o.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>operator[]()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ab6e8f8fe313b1de35e94636bdd4e34dd">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3593eea2d954fec0db1139e509206816">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a72a3b6251f6388b00f3edcd8d3311600">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a00a4aa208155f5c8a633eddc32351081">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_r.html b/functions_func_r.html
new file mode 100644
index 000000000..2bbb7af07
--- /dev/null
+++ b/functions_func_r.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>reset()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">Vec4AccT</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_s.html b/functions_func_s.html
new file mode 100644
index 000000000..1bb5cb06a
--- /dev/null
+++ b/functions_func_s.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>set()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1951c5647b663fc955ee1076f68190ec">EmbeddingRocksDB</a></li>
+<li>set_cuda()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1b6c5343b7eafae73491f0749f1151a9">EmbeddingRocksDB</a></li>
+<li>set_stochastic_rounding()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4548dbb10be8705cf81e3e2362f1cea3">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>size()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sizes()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sort()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html#ae729c535b885ed8e2aca6d99ef51e4b0">BitonicSort&lt; K, V, Dir, Comp &gt;</a></li>
+<li>store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a89967f417dba84846fa95a0f010d8922">Half4</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a85854690aa7af9f8006cf54d577d8e77">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ac1717b1a00b76b3d368982629c5e8287">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a156eebe566e80706636626c60d2d13b0">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a85854690aa7af9f8006cf54d577d8e77">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a392a5b352be9af9ba86e0cd396e6316a">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aba368627faa071e57a548a336c7bee6b">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a32f2acc26afe1a9cf7d5152567bbd15d">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a786f9130a8df81af5fc3b0706a1a6545">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a6740fe48ec591c6058b8c5019ca0b599">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a6dfa84a3eb11e20e68d8d3b401c7d2cf">VecNT&lt; 8, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a2118cba7a45acc1a3d8ea5781badbbe9">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>store_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">Vec4AccT</a></li>
+<li>store_qparams()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a7e20dc1480b5220df335895b7ac6bdd0">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>stride()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>strides()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sum()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_t.html b/functions_func_t.html
new file mode 100644
index 000000000..cd770a189
--- /dev/null
+++ b/functions_func_t.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>TensorAccessor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a6b681d8fc7f13b4b8d31426ec10a0f11">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a55169dff4cc835156c5ccd43240b4c8c">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+<li>TensorAccessorBase()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>transpose()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa4aba7637a10c7b8b839ef27952e855d">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a0ed7d1e6f585332c781fc568e1fad1ac">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_v.html b/functions_func_v.html
new file mode 100644
index 000000000..67e180223
--- /dev/null
+++ b/functions_func_v.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>Vec4AccT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a></li>
+<li>Vec4StepT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a6d2826b97c8d5f17a31ed7e7854615ad">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>Vec4T()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T&lt; float &gt;</a></li>
+<li>VecNT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a762e9c277918a40b3e1577984507b77d">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_w.html b/functions_func_w.html
new file mode 100644
index 000000000..1257896d6
--- /dev/null
+++ b/functions_func_w.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>warp_copy_to()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4a0da3213c0d4a99586cbe6e6ec72107">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>warp_evict()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#ae00ddf1640cea584b79618dfd69d91d2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>weighted_sum()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>WeightRow()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#acb13973152d6d76389dafdf6e69e6793">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_func_~.html b/functions_func_~.html
new file mode 100644
index 000000000..c21b00478
--- /dev/null
+++ b/functions_func_~.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the classes they belong to:</div>
+
+<h3><a id="index__7E" name="index__7E"></a>- ~ -</h3><ul>
+<li>~HyperCompressedSparseColumn()&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a60d5f8ac0716350bb51bcf02ed10aaeb">HyperCompressedSparseColumn</a></li>
+<li>~Initializer()&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a7a69aed99981539d9a2c0ee85459b4b6">Initializer</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_g.html b/functions_g.html
new file mode 100644
index 000000000..9eba548ca
--- /dev/null
+++ b/functions_g.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gauss&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a84e948a0aa303456e29ddecfac6a1e46">rk_state</a></li>
+<li>GenericPackedTensorAccessor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a05cb3acde0a408e40526aad85584b274">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+<li>GenericPackedTensorAccessorBase()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>get()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a9a5671e5de645f247452456ffdfa81a9">EmbeddingRocksDB</a></li>
+<li>get_cuda()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#ac8082829ce873543f6388ddbd16362e8">EmbeddingRocksDB</a></li>
+<li>getPointer()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html#a53ef47c469305fb8b5427b2a0063db6f">SharedMemory&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html#a11507d418a31c798c09f74aa6569fb72">SharedMemory&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html#a3472f2fcb0b65202627a7a5d0b47ab8f">SharedMemory&lt; int32_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html#ac04ebca5545952c6185a2693bc5d9fc9">SharedMemory&lt; int64_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html#a79e2902e4ab8379789578754af90253f">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html#aa277fc58794548c1d2619afa9cd0be9e">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></li>
+<li>gt()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_comparator.html#a869e6734f5357dab7a63300629b414c8">Comparator&lt; T &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_h.html b/functions_h.html
new file mode 100644
index 000000000..cf09084eb
--- /dev/null
+++ b/functions_h.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>has_gauss&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a629587b5f04293ea2b0bf452faa48344">rk_state</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_i.html b/functions_i.html
new file mode 100644
index 000000000..b5cb377fb
--- /dev/null
+++ b/functions_i.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>index_add()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_fma()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ad71e777976812302bf4173ce00641b55">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>index_weighted_store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>Initializer()&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#af5e246dd12f1a6c4e06ab77a41bd0590">Initializer</a></li>
+<li>items_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#addb614cfff2cdb5220c587cbfd7b08fb">enum_registration&lt; T &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_l.html b/functions_l.html
new file mode 100644
index 000000000..33bbcb366
--- /dev/null
+++ b/functions_l.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>load()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad300c1cf97abb3337915a7b9616b371e">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b08d5d5c065fbbe307dfa9237f58dc7">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a86807843e011cecc10c8f37761f5fc20">Vec4StepT&lt; STEP, uint8_t &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#afaf3bc4be251007b23417bf53b8223db">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#afaf3bc4be251007b23417bf53b8223db">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a889b0ea41fd15897021ab06b2d62bf29">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>load_qparams()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a5f3a7bac9f71533d09bb41e67708ffc2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>loaded_vals&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a6de86c6a3f25c34f8b13752e8042ea2e">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a57864e02cf856e5c64f95a762c18151f">Vec4StepT&lt; STEP, float &gt;</a></li>
+<li>lt()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_comparator.html#aff9ffad7ca52493418c969769327b704">Comparator&lt; T &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_m.html b/functions_m.html
new file mode 100644
index 000000000..26a197f37
--- /dev/null
+++ b/functions_m.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>Mod()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html#a604d46db75c43e0cd210e5b2ab2bc7e6">FixedDivisor</a></li>
+<li>mul()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+<li>mul_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">Vec4T&lt; float &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_n.html b/functions_n.html
new file mode 100644
index 000000000..9c786a340
--- /dev/null
+++ b/functions_n.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a7dac8366c11fbcad2f49d85fe8fc4fbe">enum_registration&lt; T &gt;</a></li>
+<li>ndim&#160;:&#160;<a class="el" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">StackArray&lt; T &gt;</a></li>
+<li>next_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a8797d90a1e9ec2163cb8192a962d06dd">enum_registration&lt; T &gt;</a></li>
+<li>num_non_zero_columns&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a601991d88e6582d3bdb8bba778842c25">HyperCompressedSparseColumn</a></li>
+<li>numel_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_o.html b/functions_o.html
new file mode 100644
index 000000000..f6fc4c774
--- /dev/null
+++ b/functions_o.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>operator[]()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ab6e8f8fe313b1de35e94636bdd4e34dd">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3593eea2d954fec0db1139e509206816">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a72a3b6251f6388b00f3edcd8d3311600">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a00a4aa208155f5c8a633eddc32351081">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_p.html b/functions_p.html
new file mode 100644
index 000000000..119cbcb7b
--- /dev/null
+++ b/functions_p.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>producer_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a94a9376947a96732a7b6de4ca94e7fdd">Initializer</a></li>
+<li>producer_queue_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a04da45f241a7f5da5ebb52930ed756bc">Initializer</a></li>
+<li>ptr_name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>PtrType&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html#a931c4685c69254a5749f79cdb56ec814">DefaultPtrTraits&lt; T &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_r.html b/functions_r.html
new file mode 100644
index 000000000..d0f82dbf7
--- /dev/null
+++ b/functions_r.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>registration_list&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afbf71e4018b8f6bf7ff11e50f3aeed14">enum_registration&lt; T &gt;</a></li>
+<li>reset()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">Vec4AccT</a></li>
+<li>row_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#aba84449b569f220a80ccbbcc1d4da57c">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>row_indices&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a22af9d871fd3faef3d676cc6757debcc">HyperCompressedSparseColumn</a></li>
+<li>row_storage_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a3f2b57f32ee510408e83a7c26716d7a5">Initializer</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_s.html b/functions_s.html
new file mode 100644
index 000000000..059156c7c
--- /dev/null
+++ b/functions_s.html
@@ -0,0 +1,100 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>set()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1951c5647b663fc955ee1076f68190ec">EmbeddingRocksDB</a></li>
+<li>set_cuda()&#160;:&#160;<a class="el" href="classssd_1_1_embedding_rocks_d_b.html#a1b6c5343b7eafae73491f0749f1151a9">EmbeddingRocksDB</a></li>
+<li>set_stochastic_rounding()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4548dbb10be8705cf81e3e2362f1cea3">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>size()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sizes()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sizes_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sort()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html#ae729c535b885ed8e2aca6d99ef51e4b0">BitonicSort&lt; K, V, Dir, Comp &gt;</a></li>
+<li>stoc_rounding_state_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a666e6a66f2ff524d7dd4339ee8efc9d2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>stop_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#ae1a1eeaa4661c67f8e75985160abf62a">Initializer</a></li>
+<li>store()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a89967f417dba84846fa95a0f010d8922">Half4</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a42f2f5c890748268ece0df580bbafa44">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a42f2f5c890748268ece0df580bbafa44">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a156eebe566e80706636626c60d2d13b0">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a42f2f5c890748268ece0df580bbafa44">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a5ba7b1dad5adec8ae5dc9e4adfe58c38">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aba368627faa071e57a548a336c7bee6b">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a9e2e827bb7e7c608f3acd3953a39e720">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a786f9130a8df81af5fc3b0706a1a6545">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a6740fe48ec591c6058b8c5019ca0b599">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a6dfa84a3eb11e20e68d8d3b401c7d2cf">VecNT&lt; 8, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a2118cba7a45acc1a3d8ea5781badbbe9">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>store_()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">Vec4AccT</a></li>
+<li>store_qparams()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a7e20dc1480b5220df335895b7ac6bdd0">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>stride()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>strides()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>strides_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>sum()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2b4995ca44cb8977ca258395e80a8687">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_t.html b/functions_t.html
new file mode 100644
index 000000000..0c2470f07
--- /dev/null
+++ b/functions_t.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>TensorAccessor()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#a6b681d8fc7f13b4b8d31426ec10a0f11">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a55169dff4cc835156c5ccd43240b4c8c">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+<li>TensorAccessorBase()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>transpose()&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa4aba7637a10c7b8b839ef27952e855d">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a0ed7d1e6f585332c781fc568e1fad1ac">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></li>
+<li>type&#160;:&#160;<a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02">Vec4Type&lt; at::Half &gt;</a>, <a class="el" href="struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e">Vec4Type&lt; float &gt;</a>, <a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad">Vec4Type&lt; uint8_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_type.html b/functions_type.html
new file mode 100644
index 000000000..3033e7105
--- /dev/null
+++ b/functions_type.html
@@ -0,0 +1,84 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Typedefs</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the classes they belong to:</div><ul>
+<li>PtrType&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html#a931c4685c69254a5749f79cdb56ec814">DefaultPtrTraits&lt; T &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>type&#160;:&#160;<a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02">Vec4Type&lt; at::Half &gt;</a>, <a class="el" href="struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e">Vec4Type&lt; float &gt;</a>, <a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad">Vec4Type&lt; uint8_t &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_v.html b/functions_v.html
new file mode 100644
index 000000000..2c1af44d5
--- /dev/null
+++ b/functions_v.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>vals&#160;:&#160;<a class="el" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">StackArray&lt; T &gt;</a></li>
+<li>value&#160;:&#160;<a class="el" href="structlog2__calc.html#a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9">log2_calc&lt; x &gt;</a>, <a class="el" href="structlog2__calc__.html#a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9">log2_calc_&lt; x &gt;</a>, <a class="el" href="structlog2__calc___3_010_01_4.html#adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9">log2_calc_&lt; 0 &gt;</a></li>
+<li>Vec4AccT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a></li>
+<li>Vec4StepT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a6d2826b97c8d5f17a31ed7e7854615ad">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>Vec4T()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T&lt; float &gt;</a></li>
+<li>VecNT()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a762e9c277918a40b3e1577984507b77d">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_vars.html b/functions_vars.html
new file mode 100644
index 000000000..ddb010a49
--- /dev/null
+++ b/functions_vars.html
@@ -0,0 +1,178 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members - Variables</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the classes they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>a&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a27075551b75deec4b6f30d368075d852">Half4</a>, <a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html#a943da41846f7804fa8edd8b012551545">StochasticRoundingRNGState</a></li>
+<li>acc&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">Vec4AccT</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; at::BFloat16 &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#accb1990c79cc9a9c3ca84d635d589ca4">Vec4T&lt; double &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">Vec4T&lt; float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ae7a59aea3ae02e7c3c40b93e77208b3a">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f332e6824c0bf94b367c027c6c91595">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af835160660d81c33fb2f1f42017452fb">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a17543b514b8298a1e94b5671db506366">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>b&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_half4.html#a85c654c77d6c3fc7709e8dd1e7ec4a5e">Half4</a></li>
+</ul>
+
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cache_row_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a8ba350d1da8749a0975ab4c1f645de70">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>column_segment_ids&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a1e60e73bdb48b0daa00b9f6caa8c6728">HyperCompressedSparseColumn</a></li>
+<li>column_segment_indices&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad90d05e46d82122e7688be758b7cb43a">HyperCompressedSparseColumn</a></li>
+<li>column_segment_ptr&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad1d5cb09cff5c55cbb74931bc58d8080">HyperCompressedSparseColumn</a></li>
+<li>consumer_queue_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a794bafa095540403ada855b817d1d367">Initializer</a></li>
+</ul>
+
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>data_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>dim_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a844805bf936642eb8849d76b506abf8d">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>func_name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gauss&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a84e948a0aa303456e29ddecfac6a1e46">rk_state</a></li>
+</ul>
+
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>has_gauss&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a629587b5f04293ea2b0bf452faa48344">rk_state</a></li>
+</ul>
+
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>items_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#addb614cfff2cdb5220c587cbfd7b08fb">enum_registration&lt; T &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>loaded_vals&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a6de86c6a3f25c34f8b13752e8042ea2e">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a57864e02cf856e5c64f95a762c18151f">Vec4StepT&lt; STEP, float &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a7dac8366c11fbcad2f49d85fe8fc4fbe">enum_registration&lt; T &gt;</a></li>
+<li>ndim&#160;:&#160;<a class="el" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">StackArray&lt; T &gt;</a></li>
+<li>next_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#a8797d90a1e9ec2163cb8192a962d06dd">enum_registration&lt; T &gt;</a></li>
+<li>num_non_zero_columns&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a601991d88e6582d3bdb8bba778842c25">HyperCompressedSparseColumn</a></li>
+<li>numel_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>producer_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a94a9376947a96732a7b6de4ca94e7fdd">Initializer</a></li>
+<li>producer_queue_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a04da45f241a7f5da5ebb52930ed756bc">Initializer</a></li>
+<li>ptr_name_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>registration_list&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1enum__registration.html#afbf71e4018b8f6bf7ff11e50f3aeed14">enum_registration&lt; T &gt;</a></li>
+<li>row_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#aba84449b569f220a80ccbbcc1d4da57c">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>row_indices&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a22af9d871fd3faef3d676cc6757debcc">HyperCompressedSparseColumn</a></li>
+<li>row_storage_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a3f2b57f32ee510408e83a7c26716d7a5">Initializer</a></li>
+</ul>
+
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>sizes_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+<li>stoc_rounding_state_&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a666e6a66f2ff524d7dd4339ee8efc9d2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>stop_&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#ae1a1eeaa4661c67f8e75985160abf62a">Initializer</a></li>
+<li>strides_&#160;:&#160;<a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>vals&#160;:&#160;<a class="el" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">StackArray&lt; T &gt;</a></li>
+</ul>
+
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>weights&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a210dc23584593727ddf26671264aa16a">HyperCompressedSparseColumn</a></li>
+</ul>
+
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>xor128&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a257f1349dcd98722e373947808b773c6">rk_state</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_w.html b/functions_w.html
new file mode 100644
index 000000000..e29f34d27
--- /dev/null
+++ b/functions_w.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>warp_copy_to()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4a0da3213c0d4a99586cbe6e6ec72107">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>warp_evict()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#ae00ddf1640cea584b79618dfd69d91d2">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>weighted_sum()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, at::Half &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, float &gt;</a>, <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aa7e031196d379ec4120ba58cd6b48024">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>
+<li>WeightRow()&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1_weight_row.html#acb13973152d6d76389dafdf6e69e6793">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></li>
+<li>weights&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a210dc23584593727ddf26671264aa16a">HyperCompressedSparseColumn</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_x.html b/functions_x.html
new file mode 100644
index 000000000..bfe3b8049
--- /dev/null
+++ b/functions_x.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>xor128&#160;:&#160;<a class="el" href="structfbgemm__gpu_1_1rk__state.html#a257f1349dcd98722e373947808b773c6">rk_state</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/functions_~.html b/functions_~.html
new file mode 100644
index 000000000..79ab911ee
--- /dev/null
+++ b/functions_~.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index__7E" name="index__7E"></a>- ~ -</h3><ul>
+<li>~HyperCompressedSparseColumn()&#160;:&#160;<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a60d5f8ac0716350bb51bcf02ed10aaeb">HyperCompressedSparseColumn</a></li>
+<li>~Initializer()&#160;:&#160;<a class="el" href="classssd_1_1_initializer.html#a7a69aed99981539d9a2c0ee85459b4b6">Initializer</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html b/gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html
new file mode 100644
index 000000000..ad7e47add
--- /dev/null
+++ b/gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html
@@ -0,0 +1,210 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_backward_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_backward_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5709eebbefa399282269508003e47e25" name="a5709eebbefa399282269508003e47e25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5709eebbefa399282269508003e47e25">&#9670;&#160;</a></span>batch_index_select_dim0_codegen_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_codegen_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__backward__kernel__cta_8cu.html b/gen__batch__index__select__dim0__backward__kernel__cta_8cu.html
new file mode 100644
index 000000000..3c0f345ee
--- /dev/null
+++ b/gen__batch__index__select__dim0__backward__kernel__cta_8cu.html
@@ -0,0 +1,965 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_backward_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_backward_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a6e4504b4f1023565bf18ac29f304f165" name="a6e4504b4f1023565bf18ac29f304f165"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e4504b4f1023565bf18ac29f304f165">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a419781019c14d9d59041ca2a127d2c1a" name="a419781019c14d9d59041ca2a127d2c1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a419781019c14d9d59041ca2a127d2c1a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5f6257aba106ad398e4b4a75471a8642" name="a5f6257aba106ad398e4b4a75471a8642"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f6257aba106ad398e4b4a75471a8642">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad74db204c21ce57463de29efd2b51c22" name="ad74db204c21ce57463de29efd2b51c22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad74db204c21ce57463de29efd2b51c22">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a375f1380c0a43779a6521f855f7c90ef" name="a375f1380c0a43779a6521f855f7c90ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a375f1380c0a43779a6521f855f7c90ef">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c1937cacb2c930220dfb75c2ad2fdb4" name="a6c1937cacb2c930220dfb75c2ad2fdb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c1937cacb2c930220dfb75c2ad2fdb4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row&lt; at template __global__ <a class="el" href="#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1df9e821214c938534c26d9ad87c1cff" name="a1df9e821214c938534c26d9ad87c1cff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1df9e821214c938534c26d9ad87c1cff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e814e4e84507c4c3d932abf55dc8b86" name="a6e814e4e84507c4c3d932abf55dc8b86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e814e4e84507c4c3d932abf55dc8b86">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5bf3f753d62805ba481f4394edfa3158" name="a5bf3f753d62805ba481f4394edfa3158"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5bf3f753d62805ba481f4394edfa3158">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5cb5e51b17eeacd9818bc06b9eb55ddd" name="a5cb5e51b17eeacd9818bc06b9eb55ddd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5cb5e51b17eeacd9818bc06b9eb55ddd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__backward__kernel__warp_8cu.html b/gen__batch__index__select__dim0__backward__kernel__warp_8cu.html
new file mode 100644
index 000000000..9abb18bbc
--- /dev/null
+++ b/gen__batch__index__select__dim0__backward__kernel__warp_8cu.html
@@ -0,0 +1,461 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_backward_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_backward_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af1eb0a147a3656c72bff10b68454c23b" name="af1eb0a147a3656c72bff10b68454c23b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af1eb0a147a3656c72bff10b68454c23b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a422cac14ead186e7d1ffdea24dbb41a2" name="a422cac14ead186e7d1ffdea24dbb41a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a422cac14ead186e7d1ffdea24dbb41a2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2166d1c956baff37ca5f2aa75dd5d29e" name="a2166d1c956baff37ca5f2aa75dd5d29e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2166d1c956baff37ca5f2aa75dd5d29e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0f0975698d817274d5b21d1dd31285c" name="ae0f0975698d817274d5b21d1dd31285c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0f0975698d817274d5b21d1dd31285c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c8628eff4245612b72787529fa2588f" name="a4c8628eff4245612b72787529fa2588f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c8628eff4245612b72787529fa2588f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8b31de2b716f254b2d55b709a332afa" name="ad8b31de2b716f254b2d55b709a332afa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8b31de2b716f254b2d55b709a332afa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html b/gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html
new file mode 100644
index 000000000..49e918f49
--- /dev/null
+++ b/gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html
@@ -0,0 +1,261 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_forward_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_forward_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5951ed801e11a01c29c7bbfb648ee230" name="a5951ed801e11a01c29c7bbfb648ee230"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5951ed801e11a01c29c7bbfb648ee230">&#9670;&#160;</a></span>batch_index_select_dim0_codegen_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> batch_index_select_dim0_codegen_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__forward__kernel_8cu.html b/gen__batch__index__select__dim0__forward__kernel_8cu.html
new file mode 100644
index 000000000..62ae31cfc
--- /dev/null
+++ b/gen__batch__index__select__dim0__forward__kernel_8cu.html
@@ -0,0 +1,549 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_forward_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_forward_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afe75d514238f01862b4416d072a457ab" name="afe75d514238f01862b4416d072a457ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe75d514238f01862b4416d072a457ab">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a794e5a8311030e080f19bcaf98cbaa3e" name="a794e5a8311030e080f19bcaf98cbaa3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a794e5a8311030e080f19bcaf98cbaa3e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0157d8084d739723c62bc11e05187901" name="a0157d8084d739723c62bc11e05187901"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0157d8084d739723c62bc11e05187901">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5732b42f4e3be21733885ce73871b37a" name="a5732b42f4e3be21733885ce73871b37a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5732b42f4e3be21733885ce73871b37a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab824e6081e4272e9f56dd57114a11d1d" name="ab824e6081e4272e9f56dd57114a11d1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab824e6081e4272e9f56dd57114a11d1d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33f0706d826f38b6f36f4657f5a4bbbd" name="a33f0706d826f38b6f36f4657f5a4bbbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33f0706d826f38b6f36f4657f5a4bbbd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae5ffff834bcf0d76a398a76c06a9d01b" name="ae5ffff834bcf0d76a398a76c06a9d01b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5ffff834bcf0d76a398a76c06a9d01b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3bf7d511b93dad425030c52ff0b35378" name="a3bf7d511b93dad425030c52ff0b35378"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3bf7d511b93dad425030c52ff0b35378">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>permute_output_dim_0_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__batch__index__select__dim0__forward__kernel__small_8cu.html b/gen__batch__index__select__dim0__forward__kernel__small_8cu.html
new file mode 100644
index 000000000..26111d922
--- /dev/null
+++ b/gen__batch__index__select__dim0__forward__kernel__small_8cu.html
@@ -0,0 +1,323 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_batch_index_select_dim0_forward_kernel_small.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_batch_index_select_dim0_forward_kernel_small.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aab67c7ff63262ed7ee2955ab54fd6cdb" name="aab67c7ff63262ed7ee2955ab54fd6cdb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab67c7ff63262ed7ee2955ab54fd6cdb">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a09ab46cf824219bc6c7ca9a47e3d90cd" name="a09ab46cf824219bc6c7ca9a47e3d90cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a09ab46cf824219bc6c7ca9a47e3d90cd">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a8a3ac708f5fc38ea5ebecdbe685f3c73" name="a8a3ac708f5fc38ea5ebecdbe685f3c73"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a3ac708f5fc38ea5ebecdbe685f3c73">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6d8072fe7f1cbd1cf456e3ea8a440ad3" name="a6d8072fe7f1cbd1cf456e3ea8a440ad3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d8072fe7f1cbd1cf456e3ea8a440ad3">&#9670;&#160;</a></span>dev_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; dev_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2d1eb541d5bdde0bf935a46f15efb9f4" name="a2d1eb541d5bdde0bf935a46f15efb9f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d1eb541d5bdde0bf935a46f15efb9f4">&#9670;&#160;</a></span>fd_B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acac1f3391492ec3c4a8942ec48197027" name="acac1f3391492ec3c4a8942ec48197027"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acac1f3391492ec3c4a8942ec48197027">&#9670;&#160;</a></span>fixed_L_per_warp</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const int32_t fixed_L_per_warp</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acbf20500022fb5f972956bea423a05ff" name="acbf20500022fb5f972956bea423a05ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acbf20500022fb5f972956bea423a05ff">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a110a71f81fecd3888738618492db1672" name="a110a71f81fecd3888738618492db1672"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a110a71f81fecd3888738618492db1672">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt; output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a48df3803c4f164ff153d5348c6f8f10f" name="a48df3803c4f164ff153d5348c6f8f10f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48df3803c4f164ff153d5348c6f8f10f">&#9670;&#160;</a></span>output_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; output_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5bd1879ce15d52289f55eb10253c8e8e" name="a5bd1879ce15d52289f55eb10253c8e8e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5bd1879ce15d52289f55eb10253c8e8e">&#9670;&#160;</a></span>permute_output_dim_0_1</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const int32_t const bool permute_output_dim_0_1</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa162b310777fc83fbde6ed5d0d35df4c" name="aa162b310777fc83fbde6ed5d0d35df4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa162b310777fc83fbde6ed5d0d35df4c">&#9670;&#160;</a></span>total_L_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; total_L_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a764f8ae801cd000c2a5cb4bb23f14299" name="a764f8ae801cd000c2a5cb4bb23f14299"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a764f8ae801cd000c2a5cb4bb23f14299">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__cpu_8cpp.html b/gen__embedding__backward__adagrad__split__cpu_8cpp.html
new file mode 100644
index 000000000..43e4a3dbb
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__cpu_8cpp.html
@@ -0,0 +1,252 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5e9389fec0497e9f90df6043627319ca" name="a5e9389fec0497e9f90df6043627319ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e9389fec0497e9f90df6043627319ca">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..e5f11dbe0
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html
@@ -0,0 +1,297 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1207210a9545e9575750541d0b87d2ff" name="a1207210a9545e9575750541d0b87d2ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1207210a9545e9575750541d0b87d2ff">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..a5d8efa2f
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aec97e553558684266790dc906158a105" name="aec97e553558684266790dc906158a105"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec97e553558684266790dc906158a105">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60482659dcb929a1f6a60dda564f4cdc" name="a60482659dcb929a1f6a60dda564f4cdc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60482659dcb929a1f6a60dda564f4cdc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a447c3f2918447f50e234bb7c3e2b1532" name="a447c3f2918447f50e234bb7c3e2b1532"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a447c3f2918447f50e234bb7c3e2b1532">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91f7f08a7ae090f72ea7236ba0fb5c96" name="a91f7f08a7ae090f72ea7236ba0fb5c96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91f7f08a7ae090f72ea7236ba0fb5c96">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a445aa60d61ffd3755914ffcf55c1a6fa" name="a445aa60d61ffd3755914ffcf55c1a6fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a445aa60d61ffd3755914ffcf55c1a6fa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae31ad4c12fc469e5ea516f04f158b98b" name="ae31ad4c12fc469e5ea516f04f158b98b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae31ad4c12fc469e5ea516f04f158b98b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad471b8ae6cce12a41ac160db1243f289" name="ad471b8ae6cce12a41ac160db1243f289"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad471b8ae6cce12a41ac160db1243f289">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a446498d5289ca85dd627faffea758f45" name="a446498d5289ca85dd627faffea758f45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a446498d5289ca85dd627faffea758f45">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64b75e41b7d50f479b37a8c9cf0c1bcd" name="a64b75e41b7d50f479b37a8c9cf0c1bcd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64b75e41b7d50f479b37a8c9cf0c1bcd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a390d0e97c72c325e3497aeaa3226d527" name="a390d0e97c72c325e3497aeaa3226d527"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a390d0e97c72c325e3497aeaa3226d527">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..7dd84e282
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a50cb7dfbe0185fcbd26cfd0156710acc" name="a50cb7dfbe0185fcbd26cfd0156710acc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50cb7dfbe0185fcbd26cfd0156710acc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ed9968b042349d756a20bfc8c31c22d" name="a0ed9968b042349d756a20bfc8c31c22d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ed9968b042349d756a20bfc8c31c22d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae39679f36fe6a0b7b8846c79f69f4bf9" name="ae39679f36fe6a0b7b8846c79f69f4bf9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae39679f36fe6a0b7b8846c79f69f4bf9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a59dab5f4ff3072665da93792aa3f85e9" name="a59dab5f4ff3072665da93792aa3f85e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59dab5f4ff3072665da93792aa3f85e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6da3d4d33386cf358b201f5a9a2602bb" name="a6da3d4d33386cf358b201f5a9a2602bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6da3d4d33386cf358b201f5a9a2602bb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c2c7cc342e76ed32a9621fd6bc6753e" name="a8c2c7cc342e76ed32a9621fd6bc6753e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c2c7cc342e76ed32a9621fd6bc6753e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acab5c90a244916d389e9273df81384ab" name="acab5c90a244916d389e9273df81384ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acab5c90a244916d389e9273df81384ab">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a067846db797129cc6a85a87a6009c288" name="a067846db797129cc6a85a87a6009c288"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a067846db797129cc6a85a87a6009c288">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad19427e173ef6c061d7a98427d69a595" name="ad19427e173ef6c061d7a98427d69a595"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad19427e173ef6c061d7a98427d69a595">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03451f7ef0e82d0861c795948f00bf9b" name="a03451f7ef0e82d0861c795948f00bf9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03451f7ef0e82d0861c795948f00bf9b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..ed7ca8567
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,287 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a635c3123249dcf767e8d80923e11a7b1" name="a635c3123249dcf767e8d80923e11a7b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a635c3123249dcf767e8d80923e11a7b1">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..a51823052
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a7f198a235aa56925b36d48d029f9a26a" name="a7f198a235aa56925b36d48d029f9a26a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f198a235aa56925b36d48d029f9a26a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb3af3ab6c99e8609b2199129b2a6c3d" name="abb3af3ab6c99e8609b2199129b2a6c3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb3af3ab6c99e8609b2199129b2a6c3d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a78f61ea01f92fc50b78d776edda5691c" name="a78f61ea01f92fc50b78d776edda5691c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a78f61ea01f92fc50b78d776edda5691c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac93d19a97b3d9f1b1ae742787b03d5ba" name="ac93d19a97b3d9f1b1ae742787b03d5ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac93d19a97b3d9f1b1ae742787b03d5ba">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a225fbb17a5d73ae68945ddba0baf3960" name="a225fbb17a5d73ae68945ddba0baf3960"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a225fbb17a5d73ae68945ddba0baf3960">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad9f02bfae155a2b4114e80ed9ef6390c" name="ad9f02bfae155a2b4114e80ed9ef6390c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad9f02bfae155a2b4114e80ed9ef6390c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ace33692ea18b9bd6c92308133c4499" name="a9ace33692ea18b9bd6c92308133c4499"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ace33692ea18b9bd6c92308133c4499">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98c8243c5834d18ba31ffd8f3a570480" name="a98c8243c5834d18ba31ffd8f3a570480"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98c8243c5834d18ba31ffd8f3a570480">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e2c26bd8a7744de11021a9356b59a74" name="a5e2c26bd8a7744de11021a9356b59a74"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e2c26bd8a7744de11021a9356b59a74">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a74aa12547ff3a9b9787bcdffe7b95e71" name="a74aa12547ff3a9b9787bcdffe7b95e71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74aa12547ff3a9b9787bcdffe7b95e71">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..e92adad27
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1206 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2ca5c0c3b7f03146b0739206987a8efb" name="a2ca5c0c3b7f03146b0739206987a8efb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ca5c0c3b7f03146b0739206987a8efb">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad265ff9fd07f592055eb413d73ff59a3" name="ad265ff9fd07f592055eb413d73ff59a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad265ff9fd07f592055eb413d73ff59a3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4bb5bd4f1fe9caf6f7a1d3107a479ac" name="ae4bb5bd4f1fe9caf6f7a1d3107a479ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4bb5bd4f1fe9caf6f7a1d3107a479ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad07738475ef95243e6a5d08e8e6096f1" name="ad07738475ef95243e6a5d08e8e6096f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad07738475ef95243e6a5d08e8e6096f1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab528e6c3e784b1648ebe89230f6f864c" name="ab528e6c3e784b1648ebe89230f6f864c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab528e6c3e784b1648ebe89230f6f864c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acac50d0765417aed0ba2275ef09e7363" name="acac50d0765417aed0ba2275ef09e7363"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acac50d0765417aed0ba2275ef09e7363">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a042eb088419228e49b76f7923732ed0c" name="a042eb088419228e49b76f7923732ed0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a042eb088419228e49b76f7923732ed0c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f21c580a600ad4f25aa58bbcae83e5b" name="a2f21c580a600ad4f25aa58bbcae83e5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f21c580a600ad4f25aa58bbcae83e5b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ebb0d91afb08ea0721308c278b18b89" name="a5ebb0d91afb08ea0721308c278b18b89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ebb0d91afb08ea0721308c278b18b89">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f1fea77b7579d1cab96be89c027396a" name="a2f1fea77b7579d1cab96be89c027396a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f1fea77b7579d1cab96be89c027396a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html b/gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..c60d273e7
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html
@@ -0,0 +1,302 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0e8cc9d4217b55864ac828677d7d546d" name="a0e8cc9d4217b55864ac828677d7d546d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e8cc9d4217b55864ac828677d7d546d">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..553b84956
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a479b62e3a680d0eb604b0d99c497dc44" name="a479b62e3a680d0eb604b0d99c497dc44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a479b62e3a680d0eb604b0d99c497dc44">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16936797cd22aeea32b40dcc55e1d73f" name="a16936797cd22aeea32b40dcc55e1d73f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16936797cd22aeea32b40dcc55e1d73f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1773883a254e0ab07fb0313e41e997d8" name="a1773883a254e0ab07fb0313e41e997d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1773883a254e0ab07fb0313e41e997d8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d14751fd1f29be0069e1a35e0f921e4" name="a8d14751fd1f29be0069e1a35e0f921e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d14751fd1f29be0069e1a35e0f921e4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a802903738d859e74795111ec77fb0268" name="a802903738d859e74795111ec77fb0268"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a802903738d859e74795111ec77fb0268">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a557bbce544c0a0b3dd4036ec01b6df55" name="a557bbce544c0a0b3dd4036ec01b6df55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a557bbce544c0a0b3dd4036ec01b6df55">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac768cc0753ab5318bbe47835d4f9fa9d" name="ac768cc0753ab5318bbe47835d4f9fa9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac768cc0753ab5318bbe47835d4f9fa9d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88a5089ba98be8ad981c0d2fd5c74657" name="a88a5089ba98be8ad981c0d2fd5c74657"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88a5089ba98be8ad981c0d2fd5c74657">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0386dbc79ea0aaacffbe7cf8cba78167" name="a0386dbc79ea0aaacffbe7cf8cba78167"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0386dbc79ea0aaacffbe7cf8cba78167">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a28bf244596f3c3376a70af53e767ed7d" name="a28bf244596f3c3376a70af53e767ed7d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28bf244596f3c3376a70af53e767ed7d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..e577c3f3b
--- /dev/null
+++ b/gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1326 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a665c5d75524a34cec6f5b5258b182d7a" name="a665c5d75524a34cec6f5b5258b182d7a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a665c5d75524a34cec6f5b5258b182d7a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7729be76298454212379af9803e78cf9" name="a7729be76298454212379af9803e78cf9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7729be76298454212379af9803e78cf9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2bfd2c4264e14c4f64b737892c1f4f06" name="a2bfd2c4264e14c4f64b737892c1f4f06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2bfd2c4264e14c4f64b737892c1f4f06">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f8395d5782bc2895b99dde1a0a5ca20" name="a2f8395d5782bc2895b99dde1a0a5ca20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f8395d5782bc2895b99dde1a0a5ca20">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abf0dc6720193f4ab9a278a95c495572d" name="abf0dc6720193f4ab9a278a95c495572d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abf0dc6720193f4ab9a278a95c495572d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04bf660a884cfa9ce91901a66fd99f75" name="a04bf660a884cfa9ce91901a66fd99f75"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04bf660a884cfa9ce91901a66fd99f75">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a21576335b9047871158e90e2032e8912" name="a21576335b9047871158e90e2032e8912"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21576335b9047871158e90e2032e8912">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5860a2f37abc179f0358170ee6403905" name="a5860a2f37abc179f0358170ee6403905"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5860a2f37abc179f0358170ee6403905">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a608b71f09301faa6ce5838495c9e8de1" name="a608b71f09301faa6ce5838495c9e8de1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a608b71f09301faa6ce5838495c9e8de1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a735bf953224cfed630501bf38342b07c" name="a735bf953224cfed630501bf38342b07c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a735bf953224cfed630501bf38342b07c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__cuda_8cu.html b/gen__embedding__backward__adam__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..6751abb16
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__cuda_8cu.html
@@ -0,0 +1,343 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a7c3fa518fa48a831ea3f8e691672808e" name="a7c3fa518fa48a831ea3f8e691672808e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c3fa518fa48a831ea3f8e691672808e">&#9670;&#160;</a></span>split_embedding_backward_codegen_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..9bc1a0620
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1806 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aeb6425d7cade524ae83445d8ffcad95a" name="aeb6425d7cade524ae83445d8ffcad95a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb6425d7cade524ae83445d8ffcad95a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ada6a5fbef27c4a4a31a9b8794e15442e" name="ada6a5fbef27c4a4a31a9b8794e15442e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada6a5fbef27c4a4a31a9b8794e15442e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1314b4ae40316edeea56f92f7e28410c" name="a1314b4ae40316edeea56f92f7e28410c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1314b4ae40316edeea56f92f7e28410c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab520b5026f77d9694c578169268d8f2b" name="ab520b5026f77d9694c578169268d8f2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab520b5026f77d9694c578169268d8f2b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa98ce75bc9f2d7c2e1cc4436470c150e" name="aa98ce75bc9f2d7c2e1cc4436470c150e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa98ce75bc9f2d7c2e1cc4436470c150e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07612c8115947993a4f0659814bdb991" name="a07612c8115947993a4f0659814bdb991"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07612c8115947993a4f0659814bdb991">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba8c5712b7a8fce9f51ee8108dcb79f2" name="aba8c5712b7a8fce9f51ee8108dcb79f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba8c5712b7a8fce9f51ee8108dcb79f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaca84bf78edcf873560f46ba711426c4" name="aaca84bf78edcf873560f46ba711426c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaca84bf78edcf873560f46ba711426c4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3911285f507951daf865d22e1dc2d7e9" name="a3911285f507951daf865d22e1dc2d7e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3911285f507951daf865d22e1dc2d7e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a458b855930bbc15ecb8cd6980db76490" name="a458b855930bbc15ecb8cd6980db76490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a458b855930bbc15ecb8cd6980db76490">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..8f0cdd6d6
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8a0814be275ca40dd482231bf8be61ef" name="a8a0814be275ca40dd482231bf8be61ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a0814be275ca40dd482231bf8be61ef">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abcaa8e0b99a97add31e16f0454bd57d3" name="abcaa8e0b99a97add31e16f0454bd57d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcaa8e0b99a97add31e16f0454bd57d3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ecd7c3b11cae2bd14c04414fdf39d43" name="a0ecd7c3b11cae2bd14c04414fdf39d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ecd7c3b11cae2bd14c04414fdf39d43">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65bd36be5843d363a2eb37a79abc423e" name="a65bd36be5843d363a2eb37a79abc423e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65bd36be5843d363a2eb37a79abc423e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe4fa4f0b7eca5152a57e65d0310bc97" name="afe4fa4f0b7eca5152a57e65d0310bc97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe4fa4f0b7eca5152a57e65d0310bc97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ceb5776015ed4c35b0dabca7fa8f4c5" name="a9ceb5776015ed4c35b0dabca7fa8f4c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ceb5776015ed4c35b0dabca7fa8f4c5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f79732380b8f26101bbb5a5877b0d97" name="a4f79732380b8f26101bbb5a5877b0d97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f79732380b8f26101bbb5a5877b0d97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c116db6b09393487355778e5d0ba3e0" name="a3c116db6b09393487355778e5d0ba3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c116db6b09393487355778e5d0ba3e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb6922c94e0bc8151481e453e7fbd2f7" name="abb6922c94e0bc8151481e453e7fbd2f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb6922c94e0bc8151481e453e7fbd2f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94054b18dcd5508cb296f050eafaac8c" name="a94054b18dcd5508cb296f050eafaac8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94054b18dcd5508cb296f050eafaac8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..d15f1f60b
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,333 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a6392bb8bf8131572a96cb5bf5a363152" name="a6392bb8bf8131572a96cb5bf5a363152"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6392bb8bf8131572a96cb5bf5a363152">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..c1550d0de
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1726 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a30fd75bf7de9f2dd4c1af90a76cc4cab" name="a30fd75bf7de9f2dd4c1af90a76cc4cab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30fd75bf7de9f2dd4c1af90a76cc4cab">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a43a11629fc716aa3fc2efce282ade1bf" name="a43a11629fc716aa3fc2efce282ade1bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a43a11629fc716aa3fc2efce282ade1bf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8cd9718877e1b127bdbe2690289a634" name="ad8cd9718877e1b127bdbe2690289a634"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8cd9718877e1b127bdbe2690289a634">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a97e63874df3289ce3294d46e2e016b05" name="a97e63874df3289ce3294d46e2e016b05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97e63874df3289ce3294d46e2e016b05">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7268248be04d72669a01dec69dc41c6a" name="a7268248be04d72669a01dec69dc41c6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7268248be04d72669a01dec69dc41c6a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae682ad60acd60875e5499ef3ba62ba8d" name="ae682ad60acd60875e5499ef3ba62ba8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae682ad60acd60875e5499ef3ba62ba8d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f12331e96d80708241cc08cea4b1fcf" name="a2f12331e96d80708241cc08cea4b1fcf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f12331e96d80708241cc08cea4b1fcf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54c18b3c9a1558b1f501088330c13c50" name="a54c18b3c9a1558b1f501088330c13c50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54c18b3c9a1558b1f501088330c13c50">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7898e52d82e5ed49f5b81644674cccf6" name="a7898e52d82e5ed49f5b81644674cccf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7898e52d82e5ed49f5b81644674cccf6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa277c49633d92fd3ea4687ea0f01803e" name="aa277c49633d92fd3ea4687ea0f01803e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa277c49633d92fd3ea4687ea0f01803e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..d18270f64
--- /dev/null
+++ b/gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1e6a8699bf2c46477da50582e38ee237" name="a1e6a8699bf2c46477da50582e38ee237"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e6a8699bf2c46477da50582e38ee237">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3a9242f5ffd888400f08b8c1662cc61" name="ae3a9242f5ffd888400f08b8c1662cc61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3a9242f5ffd888400f08b8c1662cc61">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab25d29756405f0c6cd77f9374cbc4eb7" name="ab25d29756405f0c6cd77f9374cbc4eb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab25d29756405f0c6cd77f9374cbc4eb7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96d20178b145f86f646dd54cc65a4689" name="a96d20178b145f86f646dd54cc65a4689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96d20178b145f86f646dd54cc65a4689">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c52e587496d1304d86d780ab48907bf" name="a0c52e587496d1304d86d780ab48907bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c52e587496d1304d86d780ab48907bf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af09531afc63fe34068a117835f5276e2" name="af09531afc63fe34068a117835f5276e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af09531afc63fe34068a117835f5276e2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a384c7aad1eb1b9b6e688ece904ad37e8" name="a384c7aad1eb1b9b6e688ece904ad37e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a384c7aad1eb1b9b6e688ece904ad37e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae901e5d211562a991d8626c0336b0d91" name="ae901e5d211562a991d8626c0336b0d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae901e5d211562a991d8626c0336b0d91">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12157bf0f49e84150a01fe1696cd2517" name="a12157bf0f49e84150a01fe1696cd2517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12157bf0f49e84150a01fe1696cd2517">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2cf38bc095adda2d396c87d8abcc41e" name="af2cf38bc095adda2d396c87d8abcc41e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2cf38bc095adda2d396c87d8abcc41e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__weighted__cuda_8cu.html b/gen__embedding__backward__adam__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..198b8b870
--- /dev/null
+++ b/gen__embedding__backward__adam__split__weighted__cuda_8cu.html
@@ -0,0 +1,348 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aea34407b88c9df5b3be55e8ea24a347d" name="aea34407b88c9df5b3be55e8ea24a347d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea34407b88c9df5b3be55e8ea24a347d">&#9670;&#160;</a></span>split_embedding_backward_codegen_adam_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adam_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..b2c0379b9
--- /dev/null
+++ b/gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1846 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa7724fd36f338edda8cec8fbce0dcc3f" name="aa7724fd36f338edda8cec8fbce0dcc3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7724fd36f338edda8cec8fbce0dcc3f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa0f0d28eaca058bde829af48b4a9b93" name="aaa0f0d28eaca058bde829af48b4a9b93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa0f0d28eaca058bde829af48b4a9b93">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6e87f8f718d28dac18c176645cc0177" name="ad6e87f8f718d28dac18c176645cc0177"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6e87f8f718d28dac18c176645cc0177">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affb72e0053cfe9211f9e16b0cfadc0ac" name="affb72e0053cfe9211f9e16b0cfadc0ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affb72e0053cfe9211f9e16b0cfadc0ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e4660a5830af64e9d350bb97c1e3a33" name="a3e4660a5830af64e9d350bb97c1e3a33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e4660a5830af64e9d350bb97c1e3a33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3fd0b06c245d1deda1dfd409ef777dbc" name="a3fd0b06c245d1deda1dfd409ef777dbc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fd0b06c245d1deda1dfd409ef777dbc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f2f9af58b42f9000c6afc0ede01f437" name="a2f2f9af58b42f9000c6afc0ede01f437"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f2f9af58b42f9000c6afc0ede01f437">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4d004ac86d256e60d311e9968760ace" name="ae4d004ac86d256e60d311e9968760ace"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4d004ac86d256e60d311e9968760ace">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae67b8281998dc6618d7137d6c900514d" name="ae67b8281998dc6618d7137d6c900514d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae67b8281998dc6618d7137d6c900514d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4592aa63ba08715f737b78de44450545" name="a4592aa63ba08715f737b78de44450545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4592aa63ba08715f737b78de44450545">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..a72590df8
--- /dev/null
+++ b/gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1646 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_adam_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_adam_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a141a421e122929281f3a968d7181075d" name="a141a421e122929281f3a968d7181075d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a141a421e122929281f3a968d7181075d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa53241ccd067fda3b4f745364d104ae7" name="aa53241ccd067fda3b4f745364d104ae7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa53241ccd067fda3b4f745364d104ae7">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fcac5f4fe8809ed79e52dd0b6cd3b33" name="a8fcac5f4fe8809ed79e52dd0b6cd3b33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fcac5f4fe8809ed79e52dd0b6cd3b33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a670bd91b158c44cc933ee13f4083d850" name="a670bd91b158c44cc933ee13f4083d850"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a670bd91b158c44cc933ee13f4083d850">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f22910d204e8c3b3e5ff55c9480a2e0" name="a0f22910d204e8c3b3e5ff55c9480a2e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f22910d204e8c3b3e5ff55c9480a2e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b140fe99d998657ba70d37cb96981ae" name="a0b140fe99d998657ba70d37cb96981ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b140fe99d998657ba70d37cb96981ae">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe83f8be103b8fff8e2ef9d56910ff68" name="afe83f8be103b8fff8e2ef9d56910ff68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe83f8be103b8fff8e2ef9d56910ff68">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a899e0ed06ca2d908cf92842a6c8145f1" name="a899e0ed06ca2d908cf92842a6c8145f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a899e0ed06ca2d908cf92842a6c8145f1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed47ce83acf75979b426dc241ae12149" name="aed47ce83acf75979b426dc241ae12149"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed47ce83acf75979b426dc241ae12149">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3f634c3e17354623fb175e7ef20d939" name="ae3f634c3e17354623fb175e7ef20d939"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3f634c3e17354623fb175e7ef20d939">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..6cc389dcf
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html
@@ -0,0 +1,307 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a346e3b137705a7c27ea4448090c853ca" name="a346e3b137705a7c27ea4448090c853ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a346e3b137705a7c27ea4448090c853ca">&#9670;&#160;</a></span>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..2afec6f17
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1566 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aef74039cc67d8a29f2964dd2ead5c884" name="aef74039cc67d8a29f2964dd2ead5c884"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef74039cc67d8a29f2964dd2ead5c884">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8005f4419a0e99b1adc8ba836e2bacc4" name="a8005f4419a0e99b1adc8ba836e2bacc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8005f4419a0e99b1adc8ba836e2bacc4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a440eee4271eb5f61b204de4ec66054d2" name="a440eee4271eb5f61b204de4ec66054d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a440eee4271eb5f61b204de4ec66054d2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9137cfc1d9e0421323b78bf589c34fc" name="af9137cfc1d9e0421323b78bf589c34fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9137cfc1d9e0421323b78bf589c34fc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a745a7f66bb6899e5071ee55e90f23368" name="a745a7f66bb6899e5071ee55e90f23368"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a745a7f66bb6899e5071ee55e90f23368">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a336a999e1b383c51b25841fa00f768d4" name="a336a999e1b383c51b25841fa00f768d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a336a999e1b383c51b25841fa00f768d4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a35f6a98383bf1ed951023b1fe432ed4c" name="a35f6a98383bf1ed951023b1fe432ed4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35f6a98383bf1ed951023b1fe432ed4c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a025f08f037ddf498278c429e09fd4d4a" name="a025f08f037ddf498278c429e09fd4d4a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a025f08f037ddf498278c429e09fd4d4a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a188fb685cd69453ab94f992332f523a9" name="a188fb685cd69453ab94f992332f523a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a188fb685cd69453ab94f992332f523a9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98043b075d1f73a69bd0b19b1a24283e" name="a98043b075d1f73a69bd0b19b1a24283e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98043b075d1f73a69bd0b19b1a24283e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..a699e98d9
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af4e9ad9da78c796024828e400596398e" name="af4e9ad9da78c796024828e400596398e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4e9ad9da78c796024828e400596398e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abbbfbac2a0d5a12edfd4fa6e476f5089" name="abbbfbac2a0d5a12edfd4fa6e476f5089"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abbbfbac2a0d5a12edfd4fa6e476f5089">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ecc1609ac62272a2c0f5a1e1cddbed5" name="a8ecc1609ac62272a2c0f5a1e1cddbed5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ecc1609ac62272a2c0f5a1e1cddbed5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d2430849bd51fc5ad283d1a300cabba" name="a8d2430849bd51fc5ad283d1a300cabba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d2430849bd51fc5ad283d1a300cabba">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a377694b1c0ce71b8d0c56077a904f7d7" name="a377694b1c0ce71b8d0c56077a904f7d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a377694b1c0ce71b8d0c56077a904f7d7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acce157d175e9e72545e8784647a38511" name="acce157d175e9e72545e8784647a38511"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acce157d175e9e72545e8784647a38511">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1d9234d02b6be2ab2bdc5f4a8dc5701" name="ad1d9234d02b6be2ab2bdc5f4a8dc5701"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1d9234d02b6be2ab2bdc5f4a8dc5701">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8e910b2c682642ac61185d1b155c5eb" name="ab8e910b2c682642ac61185d1b155c5eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8e910b2c682642ac61185d1b155c5eb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acde8c89a937e31cb98aa026b261cfe23" name="acde8c89a937e31cb98aa026b261cfe23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acde8c89a937e31cb98aa026b261cfe23">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf1cf7a1807aab50d346ef163c534c1d" name="adf1cf7a1807aab50d346ef163c534c1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf1cf7a1807aab50d346ef163c534c1d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..45c0c2405
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,297 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8d755844b3dc430390b0db02833650a7" name="a8d755844b3dc430390b0db02833650a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d755844b3dc430390b0db02833650a7">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..1bf6d600a
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a727c25d68451d781ee3328a76b544770" name="a727c25d68451d781ee3328a76b544770"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a727c25d68451d781ee3328a76b544770">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a942a80794035682b67bf75531af7ea76" name="a942a80794035682b67bf75531af7ea76"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a942a80794035682b67bf75531af7ea76">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3490c2bf081c92095011640fb03961b5" name="a3490c2bf081c92095011640fb03961b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3490c2bf081c92095011640fb03961b5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a01c0225eea92b7b0403572335b1abc61" name="a01c0225eea92b7b0403572335b1abc61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01c0225eea92b7b0403572335b1abc61">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad39229402610f8c9069ea8a7e1c6a0ab" name="ad39229402610f8c9069ea8a7e1c6a0ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad39229402610f8c9069ea8a7e1c6a0ab">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2f871ccb0e37e363f7b979d923f944d" name="ac2f871ccb0e37e363f7b979d923f944d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2f871ccb0e37e363f7b979d923f944d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4074249c4919e43d534eb0904fa4693b" name="a4074249c4919e43d534eb0904fa4693b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4074249c4919e43d534eb0904fa4693b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab903a35e3bd981f1436d46179b87ecb9" name="ab903a35e3bd981f1436d46179b87ecb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab903a35e3bd981f1436d46179b87ecb9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a73eba662cabf7a9761d2cf5d195206f4" name="a73eba662cabf7a9761d2cf5d195206f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73eba662cabf7a9761d2cf5d195206f4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8c1bfed5b951970a40f4028998d21fd" name="ae8c1bfed5b951970a40f4028998d21fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8c1bfed5b951970a40f4028998d21fd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..725e01903
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a02950b6e35152a847c545ef90af6c315" name="a02950b6e35152a847c545ef90af6c315"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02950b6e35152a847c545ef90af6c315">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46c9fa7a8cf628e30c5bcbd6713846b2" name="a46c9fa7a8cf628e30c5bcbd6713846b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46c9fa7a8cf628e30c5bcbd6713846b2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ae09f234561f1e415ef920bbf6eba22" name="a8ae09f234561f1e415ef920bbf6eba22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ae09f234561f1e415ef920bbf6eba22">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af13fd6356fec61b096f429f666c4d50a" name="af13fd6356fec61b096f429f666c4d50a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af13fd6356fec61b096f429f666c4d50a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aebd1c348edc2accec933a20abbf4ff2a" name="aebd1c348edc2accec933a20abbf4ff2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aebd1c348edc2accec933a20abbf4ff2a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a97cc1b7bcf350b322be5238011334085" name="a97cc1b7bcf350b322be5238011334085"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97cc1b7bcf350b322be5238011334085">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ff2b2e15a95a8d176f99a8eebddf45d" name="a5ff2b2e15a95a8d176f99a8eebddf45d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ff2b2e15a95a8d176f99a8eebddf45d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a023ead14754421961a4b473a3b1bb81c" name="a023ead14754421961a4b473a3b1bb81c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a023ead14754421961a4b473a3b1bb81c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f1c2f2aebc7a13ddade48d2a2f0301c" name="a3f1c2f2aebc7a13ddade48d2a2f0301c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f1c2f2aebc7a13ddade48d2a2f0301c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af95c4def12e4117e2d7bdc89b8fb0506" name="af95c4def12e4117e2d7bdc89b8fb0506"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af95c4def12e4117e2d7bdc89b8fb0506">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..d76213cba
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html
@@ -0,0 +1,312 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1ff3b73be256bfc5b6a6a92c35f5c101" name="a1ff3b73be256bfc5b6a6a92c35f5c101"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ff3b73be256bfc5b6a6a92c35f5c101">&#9670;&#160;</a></span>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..2caf2a091
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="adf6d412fe63bcfdcd84fc4e45f616217" name="adf6d412fe63bcfdcd84fc4e45f616217"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf6d412fe63bcfdcd84fc4e45f616217">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a360c18a2f091431cf7f15e6ac14e848a" name="a360c18a2f091431cf7f15e6ac14e848a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a360c18a2f091431cf7f15e6ac14e848a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11b62696a1fcc6753a62e4b7b78987a9" name="a11b62696a1fcc6753a62e4b7b78987a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11b62696a1fcc6753a62e4b7b78987a9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af15cb1c5b6cddd5d3678e3cee0a6cefe" name="af15cb1c5b6cddd5d3678e3cee0a6cefe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af15cb1c5b6cddd5d3678e3cee0a6cefe">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a933ef9f4d58e4ecad71988cd6f5ad537" name="a933ef9f4d58e4ecad71988cd6f5ad537"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a933ef9f4d58e4ecad71988cd6f5ad537">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a78184f7b8b96c9fc9daa6d61c6bf8b32" name="a78184f7b8b96c9fc9daa6d61c6bf8b32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a78184f7b8b96c9fc9daa6d61c6bf8b32">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea22f0f456a89d61d1a066e7b363f59a" name="aea22f0f456a89d61d1a066e7b363f59a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea22f0f456a89d61d1a066e7b363f59a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af8966c1a682b91a466caa300f057d2cd" name="af8966c1a682b91a466caa300f057d2cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8966c1a682b91a466caa300f057d2cd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96ca79bd9787eab9dfe57a09f61590db" name="a96ca79bd9787eab9dfe57a09f61590db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96ca79bd9787eab9dfe57a09f61590db">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c1e5c2776f4209766c769243bf57894" name="a6c1e5c2776f4209766c769243bf57894"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c1e5c2776f4209766c769243bf57894">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..42c14ae0a
--- /dev/null
+++ b/gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a60ab111bc496bd3b843b3d73350f6695" name="a60ab111bc496bd3b843b3d73350f6695"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60ab111bc496bd3b843b3d73350f6695">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe773e17b7f19a70a10efe7bf1763c07" name="abe773e17b7f19a70a10efe7bf1763c07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe773e17b7f19a70a10efe7bf1763c07">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e895892d276833086475c0e7f1b7927" name="a0e895892d276833086475c0e7f1b7927"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e895892d276833086475c0e7f1b7927">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7cbe79ba3521a4bbd4c14a74fd6adff" name="ac7cbe79ba3521a4bbd4c14a74fd6adff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7cbe79ba3521a4bbd4c14a74fd6adff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac58c7e73b10a41dc9f49d4e477b20fb2" name="ac58c7e73b10a41dc9f49d4e477b20fb2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac58c7e73b10a41dc9f49d4e477b20fb2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2bcc4982507c7169f085b06d8bda77eb" name="a2bcc4982507c7169f085b06d8bda77eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2bcc4982507c7169f085b06d8bda77eb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0cb98e4afaf555388869ebe3242fc7d0" name="a0cb98e4afaf555388869ebe3242fc7d0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0cb98e4afaf555388869ebe3242fc7d0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98fc1738f166a55809b2648796416db0" name="a98fc1738f166a55809b2648796416db0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98fc1738f166a55809b2648796416db0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad7d432c589db7e87949a9d0ca5533b54" name="ad7d432c589db7e87949a9d0ca5533b54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad7d432c589db7e87949a9d0ca5533b54">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58cc18641eaeee8eb587cb2a3726e85b" name="a58cc18641eaeee8eb587cb2a3726e85b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58cc18641eaeee8eb587cb2a3726e85b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html b/gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html
new file mode 100644
index 000000000..cc943eacb
--- /dev/null
+++ b/gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html
@@ -0,0 +1,196 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_indice_weights_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad49c5c5e6c69ba836c2c3728d383cd5c" name="ad49c5c5e6c69ba836c2c3728d383cd5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad49c5c5e6c69ba836c2c3728d383cd5c">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa413d80f0ebbadd4375b29cfb27654b3" name="aa413d80f0ebbadd4375b29cfb27654b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa413d80f0ebbadd4375b29cfb27654b3">&#9670;&#160;</a></span>dense_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__cpu_8cpp.html b/gen__embedding__backward__dense__split__cpu_8cpp.html
new file mode 100644
index 000000000..c9d225761
--- /dev/null
+++ b/gen__embedding__backward__dense__split__cpu_8cpp.html
@@ -0,0 +1,217 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9872de3651e55555a2bea1c407c45c5d" name="a9872de3651e55555a2bea1c407c45c5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9872de3651e55555a2bea1c407c45c5d">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>unused</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__cuda_8cu.html b/gen__embedding__backward__dense__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..32c32e792
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__cuda_8cu.html
@@ -0,0 +1,227 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af39484621a2a43237ee275c7d9497e16" name="af39484621a2a43237ee275c7d9497e16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af39484621a2a43237ee275c7d9497e16">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..1893c7903
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1005 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a71d10fab767a3f6a4c9845432b7c673b" name="a71d10fab767a3f6a4c9845432b7c673b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71d10fab767a3f6a4c9845432b7c673b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a134107427281e66b9bdc1f05e0ed2006" name="a134107427281e66b9bdc1f05e0ed2006"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a134107427281e66b9bdc1f05e0ed2006">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a06567b685179fac57c60d07bfc5596f9" name="a06567b685179fac57c60d07bfc5596f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06567b685179fac57c60d07bfc5596f9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac806eae9eee01106ea55ef146007dfe8" name="ac806eae9eee01106ea55ef146007dfe8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac806eae9eee01106ea55ef146007dfe8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0685df0fb0a672d3d2237bd536db1b3" name="aa0685df0fb0a672d3d2237bd536db1b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0685df0fb0a672d3d2237bd536db1b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7fda08a8c83a3557857418ea43e4dea3" name="a7fda08a8c83a3557857418ea43e4dea3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7fda08a8c83a3557857418ea43e4dea3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8b3df46fe1527fa468b07f9b7629420e" name="a8b3df46fe1527fa468b07f9b7629420e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8b3df46fe1527fa468b07f9b7629420e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af8601ce12308ef84b4899504296ae6ce" name="af8601ce12308ef84b4899504296ae6ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8601ce12308ef84b4899504296ae6ce">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acdc78be52effcf8cc2c910b822c3ee7a" name="acdc78be52effcf8cc2c910b822c3ee7a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acdc78be52effcf8cc2c910b822c3ee7a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1078e271f687367cefee7d0e75efe3d6" name="a1078e271f687367cefee7d0e75efe3d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1078e271f687367cefee7d0e75efe3d6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..041c43b6a
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,481 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a321e6c7a5bc2c920f083dadb4d023bae" name="a321e6c7a5bc2c920f083dadb4d023bae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a321e6c7a5bc2c920f083dadb4d023bae">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a705c39686bcf17986ce0182b31944a82" name="a705c39686bcf17986ce0182b31944a82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a705c39686bcf17986ce0182b31944a82">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f4c065ae0c477c9055f201ff1d77eeb" name="a1f4c065ae0c477c9055f201ff1d77eeb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f4c065ae0c477c9055f201ff1d77eeb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9cf51444fe766e08d86ec3b884680083" name="a9cf51444fe766e08d86ec3b884680083"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9cf51444fe766e08d86ec3b884680083">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a621cee00cffc059f6e5dac1dae6c870a" name="a621cee00cffc059f6e5dac1dae6c870a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a621cee00cffc059f6e5dac1dae6c870a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c8e7afc35b5a54e69b3826c35adf2de" name="a8c8e7afc35b5a54e69b3826c35adf2de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c8e7afc35b5a54e69b3826c35adf2de">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..0684bf103
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,217 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a11ce1782edb9d58fffb5fe2581172d70" name="a11ce1782edb9d58fffb5fe2581172d70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11ce1782edb9d58fffb5fe2581172d70">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..d43aec63f
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,925 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8f6c6ea91c21be19960e453b8f83698b" name="a8f6c6ea91c21be19960e453b8f83698b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f6c6ea91c21be19960e453b8f83698b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa068d67521003fac6c5013d12698b228" name="aa068d67521003fac6c5013d12698b228"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa068d67521003fac6c5013d12698b228">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a095215da51de608e36ba8292e72c72af" name="a095215da51de608e36ba8292e72c72af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a095215da51de608e36ba8292e72c72af">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1edce0d6c349a03501ea2777a101af79" name="a1edce0d6c349a03501ea2777a101af79"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1edce0d6c349a03501ea2777a101af79">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2309228f9f01e4fcfd7620b415458f5a" name="a2309228f9f01e4fcfd7620b415458f5a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2309228f9f01e4fcfd7620b415458f5a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e80797bba1bde61de4e23580a123045" name="a9e80797bba1bde61de4e23580a123045"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e80797bba1bde61de4e23580a123045">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56eec79755c7e031dac93d7fee216fcb" name="a56eec79755c7e031dac93d7fee216fcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56eec79755c7e031dac93d7fee216fcb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab17cf37109f61a98a1e67e278282d410" name="ab17cf37109f61a98a1e67e278282d410"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab17cf37109f61a98a1e67e278282d410">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac73727b32e66331f5cfe9705c2bcf9da" name="ac73727b32e66331f5cfe9705c2bcf9da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac73727b32e66331f5cfe9705c2bcf9da">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2431e3a9f193cb26104acb7111bb16e7" name="a2431e3a9f193cb26104acb7111bb16e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2431e3a9f193cb26104acb7111bb16e7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..8227a0bd3
--- /dev/null
+++ b/gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,441 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4d92990636a3fcdbe762a413cc96c642" name="a4d92990636a3fcdbe762a413cc96c642"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4d92990636a3fcdbe762a413cc96c642">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9629d38b5ab429da94bb1d5099042123" name="a9629d38b5ab429da94bb1d5099042123"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9629d38b5ab429da94bb1d5099042123">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4fb277896c516d3421f917fbbbbc10e0" name="a4fb277896c516d3421f917fbbbbc10e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4fb277896c516d3421f917fbbbbc10e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1ed3a6b528acb610a62f188de95ebc0d" name="a1ed3a6b528acb610a62f188de95ebc0d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ed3a6b528acb610a62f188de95ebc0d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a508ae4c79692f2664971272e30d3fc2e" name="a508ae4c79692f2664971272e30d3fc2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a508ae4c79692f2664971272e30d3fc2e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab671eaaed996f9f41eca1f557abae645" name="ab671eaaed996f9f41eca1f557abae645"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab671eaaed996f9f41eca1f557abae645">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__weighted__cuda_8cu.html b/gen__embedding__backward__dense__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..0e0eb9db0
--- /dev/null
+++ b/gen__embedding__backward__dense__split__weighted__cuda_8cu.html
@@ -0,0 +1,232 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aeae20f9c1a93bb4297f2710fe00723a2" name="aeae20f9c1a93bb4297f2710fe00723a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeae20f9c1a93bb4297f2710fe00723a2">&#9670;&#160;</a></span>split_embedding_backward_codegen_dense_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_dense_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..346eed047
--- /dev/null
+++ b/gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1045 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a044189dd94a5b69db982c5e78a8258f4" name="a044189dd94a5b69db982c5e78a8258f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a044189dd94a5b69db982c5e78a8258f4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a44794beb7b535ee85a06027407e9578d" name="a44794beb7b535ee85a06027407e9578d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44794beb7b535ee85a06027407e9578d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a356f3f696dd24ffa3fcf741fd8cd2ce7" name="a356f3f696dd24ffa3fcf741fd8cd2ce7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a356f3f696dd24ffa3fcf741fd8cd2ce7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0beafd356bf1cfb6ea68ff7e1bd2992b" name="a0beafd356bf1cfb6ea68ff7e1bd2992b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0beafd356bf1cfb6ea68ff7e1bd2992b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae6c1506493e5d8b4539080b206713dce" name="ae6c1506493e5d8b4539080b206713dce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6c1506493e5d8b4539080b206713dce">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af04ea470cdd8a07f331e1efbc90114d2" name="af04ea470cdd8a07f331e1efbc90114d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af04ea470cdd8a07f331e1efbc90114d2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af798849724e5b343ef0987b64245c41a" name="af798849724e5b343ef0987b64245c41a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af798849724e5b343ef0987b64245c41a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2bf567d2b9120f65832f9e8e227c3bb" name="ab2bf567d2b9120f65832f9e8e227c3bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2bf567d2b9120f65832f9e8e227c3bb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a761283af416d74a3f610cb64f134cbad" name="a761283af416d74a3f610cb64f134cbad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a761283af416d74a3f610cb64f134cbad">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac34e39eb121e260238cc9a54f2d13a85" name="ac34e39eb121e260238cc9a54f2d13a85"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac34e39eb121e260238cc9a54f2d13a85">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..d7d92900a
--- /dev/null
+++ b/gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,845 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_dense_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_dense_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aec8fd1dccb91dec69eee635d8cc8cae3" name="aec8fd1dccb91dec69eee635d8cc8cae3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec8fd1dccb91dec69eee635d8cc8cae3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae68abaaf02536c2e20decd2ca4daef60" name="ae68abaaf02536c2e20decd2ca4daef60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae68abaaf02536c2e20decd2ca4daef60">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afb2bcda34aa0401c61ef4fd5ebe0b090" name="afb2bcda34aa0401c61ef4fd5ebe0b090"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb2bcda34aa0401c61ef4fd5ebe0b090">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab3795d6b83ee437c61880577c78b2273" name="ab3795d6b83ee437c61880577c78b2273"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab3795d6b83ee437c61880577c78b2273">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a19a7ecd9eeedc4239cf1b987d3f4d15f" name="a19a7ecd9eeedc4239cf1b987d3f4d15f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a19a7ecd9eeedc4239cf1b987d3f4d15f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a929b3395fb702cbf1354da769ca55637" name="a929b3395fb702cbf1354da769ca55637"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a929b3395fb702cbf1354da769ca55637">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33f0017811260350774433a6b81f85ea" name="a33f0017811260350774433a6b81f85ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33f0017811260350774433a6b81f85ea">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0f60eb17c2973c16120ac880fa1405c" name="ae0f60eb17c2973c16120ac880fa1405c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0f60eb17c2973c16120ac880fa1405c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5765c206de6271ac6019a718fd7ad6b3" name="a5765c206de6271ac6019a718fd7ad6b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5765c206de6271ac6019a718fd7ad6b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a36b2d055ae9089bfecce1598d5ee5734" name="a36b2d055ae9089bfecce1598d5ee5734"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36b2d055ae9089bfecce1598d5ee5734">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html b/gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..7a90c6b0d
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html
@@ -0,0 +1,343 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a45b16bde5dcd4ed361824c02fb19aa28" name="a45b16bde5dcd4ed361824c02fb19aa28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45b16bde5dcd4ed361824c02fb19aa28">&#9670;&#160;</a></span>split_embedding_backward_codegen_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..4e180036a
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1806 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa9d0b42dc9a6b6c25005e5adc6a412e3" name="aa9d0b42dc9a6b6c25005e5adc6a412e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9d0b42dc9a6b6c25005e5adc6a412e3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2bc792b1cf28a27ebfc0866b059fa81" name="af2bc792b1cf28a27ebfc0866b059fa81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2bc792b1cf28a27ebfc0866b059fa81">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1314b4ae40316edeea56f92f7e28410c" name="a1314b4ae40316edeea56f92f7e28410c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1314b4ae40316edeea56f92f7e28410c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab520b5026f77d9694c578169268d8f2b" name="ab520b5026f77d9694c578169268d8f2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab520b5026f77d9694c578169268d8f2b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa98ce75bc9f2d7c2e1cc4436470c150e" name="aa98ce75bc9f2d7c2e1cc4436470c150e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa98ce75bc9f2d7c2e1cc4436470c150e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a025db262738d28e0f6d0073da9eecc1c" name="a025db262738d28e0f6d0073da9eecc1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a025db262738d28e0f6d0073da9eecc1c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba8c5712b7a8fce9f51ee8108dcb79f2" name="aba8c5712b7a8fce9f51ee8108dcb79f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba8c5712b7a8fce9f51ee8108dcb79f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaca84bf78edcf873560f46ba711426c4" name="aaca84bf78edcf873560f46ba711426c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaca84bf78edcf873560f46ba711426c4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3911285f507951daf865d22e1dc2d7e9" name="a3911285f507951daf865d22e1dc2d7e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3911285f507951daf865d22e1dc2d7e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a458b855930bbc15ecb8cd6980db76490" name="a458b855930bbc15ecb8cd6980db76490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a458b855930bbc15ecb8cd6980db76490">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..5df9dedb2
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a502bf7dfa5a02ec71b77763a65ec91c5" name="a502bf7dfa5a02ec71b77763a65ec91c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a502bf7dfa5a02ec71b77763a65ec91c5">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8026675b09ae447bd48ab0a854ea28bf" name="a8026675b09ae447bd48ab0a854ea28bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8026675b09ae447bd48ab0a854ea28bf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ecd7c3b11cae2bd14c04414fdf39d43" name="a0ecd7c3b11cae2bd14c04414fdf39d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ecd7c3b11cae2bd14c04414fdf39d43">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65bd36be5843d363a2eb37a79abc423e" name="a65bd36be5843d363a2eb37a79abc423e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65bd36be5843d363a2eb37a79abc423e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe4fa4f0b7eca5152a57e65d0310bc97" name="afe4fa4f0b7eca5152a57e65d0310bc97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe4fa4f0b7eca5152a57e65d0310bc97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad312b70230d4098d8ac2747559c7f26d" name="ad312b70230d4098d8ac2747559c7f26d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad312b70230d4098d8ac2747559c7f26d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f79732380b8f26101bbb5a5877b0d97" name="a4f79732380b8f26101bbb5a5877b0d97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f79732380b8f26101bbb5a5877b0d97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c116db6b09393487355778e5d0ba3e0" name="a3c116db6b09393487355778e5d0ba3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c116db6b09393487355778e5d0ba3e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb6922c94e0bc8151481e453e7fbd2f7" name="abb6922c94e0bc8151481e453e7fbd2f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb6922c94e0bc8151481e453e7fbd2f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94054b18dcd5508cb296f050eafaac8c" name="a94054b18dcd5508cb296f050eafaac8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94054b18dcd5508cb296f050eafaac8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..102a1ab4b
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,333 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad6463435db98705077041803b394dcc3" name="ad6463435db98705077041803b394dcc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6463435db98705077041803b394dcc3">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..382252f56
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1726 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aac66a737c59bab7e9f767b1e38d5f1d3" name="aac66a737c59bab7e9f767b1e38d5f1d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac66a737c59bab7e9f767b1e38d5f1d3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd63238f6b7c4a1e468568bda42bb3e0" name="afd63238f6b7c4a1e468568bda42bb3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd63238f6b7c4a1e468568bda42bb3e0">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8cd9718877e1b127bdbe2690289a634" name="ad8cd9718877e1b127bdbe2690289a634"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8cd9718877e1b127bdbe2690289a634">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a97e63874df3289ce3294d46e2e016b05" name="a97e63874df3289ce3294d46e2e016b05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97e63874df3289ce3294d46e2e016b05">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7268248be04d72669a01dec69dc41c6a" name="a7268248be04d72669a01dec69dc41c6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7268248be04d72669a01dec69dc41c6a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b27ae9a200a1ece5394819d34ccab40" name="a0b27ae9a200a1ece5394819d34ccab40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b27ae9a200a1ece5394819d34ccab40">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f12331e96d80708241cc08cea4b1fcf" name="a2f12331e96d80708241cc08cea4b1fcf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f12331e96d80708241cc08cea4b1fcf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54c18b3c9a1558b1f501088330c13c50" name="a54c18b3c9a1558b1f501088330c13c50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54c18b3c9a1558b1f501088330c13c50">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7898e52d82e5ed49f5b81644674cccf6" name="a7898e52d82e5ed49f5b81644674cccf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7898e52d82e5ed49f5b81644674cccf6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa277c49633d92fd3ea4687ea0f01803e" name="aa277c49633d92fd3ea4687ea0f01803e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa277c49633d92fd3ea4687ea0f01803e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..c374fa666
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4e2287d8d0e80b53a592337a64570d66" name="a4e2287d8d0e80b53a592337a64570d66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e2287d8d0e80b53a592337a64570d66">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11d09ebd4c4b65fb35d265de845d73fc" name="a11d09ebd4c4b65fb35d265de845d73fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11d09ebd4c4b65fb35d265de845d73fc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab25d29756405f0c6cd77f9374cbc4eb7" name="ab25d29756405f0c6cd77f9374cbc4eb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab25d29756405f0c6cd77f9374cbc4eb7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96d20178b145f86f646dd54cc65a4689" name="a96d20178b145f86f646dd54cc65a4689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96d20178b145f86f646dd54cc65a4689">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c52e587496d1304d86d780ab48907bf" name="a0c52e587496d1304d86d780ab48907bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c52e587496d1304d86d780ab48907bf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9b1b580c02b691e732330917b4346b9" name="ac9b1b580c02b691e732330917b4346b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9b1b580c02b691e732330917b4346b9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a384c7aad1eb1b9b6e688ece904ad37e8" name="a384c7aad1eb1b9b6e688ece904ad37e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a384c7aad1eb1b9b6e688ece904ad37e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae901e5d211562a991d8626c0336b0d91" name="ae901e5d211562a991d8626c0336b0d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae901e5d211562a991d8626c0336b0d91">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12157bf0f49e84150a01fe1696cd2517" name="a12157bf0f49e84150a01fe1696cd2517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12157bf0f49e84150a01fe1696cd2517">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2cf38bc095adda2d396c87d8abcc41e" name="af2cf38bc095adda2d396c87d8abcc41e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2cf38bc095adda2d396c87d8abcc41e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__weighted__cuda_8cu.html b/gen__embedding__backward__lamb__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..caba003e1
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__weighted__cuda_8cu.html
@@ -0,0 +1,348 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac26e29ea75fba6b9f3922118cd293b96" name="ac26e29ea75fba6b9f3922118cd293b96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac26e29ea75fba6b9f3922118cd293b96">&#9670;&#160;</a></span>split_embedding_backward_codegen_lamb_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lamb_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..320f39543
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1846 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afa2ba02eba70da5c0a8fdcd8509e7e77" name="afa2ba02eba70da5c0a8fdcd8509e7e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afa2ba02eba70da5c0a8fdcd8509e7e77">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61e7f43722eeda4e4234e1af525ae46e" name="a61e7f43722eeda4e4234e1af525ae46e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61e7f43722eeda4e4234e1af525ae46e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6e87f8f718d28dac18c176645cc0177" name="ad6e87f8f718d28dac18c176645cc0177"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6e87f8f718d28dac18c176645cc0177">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affb72e0053cfe9211f9e16b0cfadc0ac" name="affb72e0053cfe9211f9e16b0cfadc0ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affb72e0053cfe9211f9e16b0cfadc0ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e4660a5830af64e9d350bb97c1e3a33" name="a3e4660a5830af64e9d350bb97c1e3a33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e4660a5830af64e9d350bb97c1e3a33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a234aa0426b89c62486c8f88fdd7722e8" name="a234aa0426b89c62486c8f88fdd7722e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a234aa0426b89c62486c8f88fdd7722e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f2f9af58b42f9000c6afc0ede01f437" name="a2f2f9af58b42f9000c6afc0ede01f437"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f2f9af58b42f9000c6afc0ede01f437">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4d004ac86d256e60d311e9968760ace" name="ae4d004ac86d256e60d311e9968760ace"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4d004ac86d256e60d311e9968760ace">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae67b8281998dc6618d7137d6c900514d" name="ae67b8281998dc6618d7137d6c900514d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae67b8281998dc6618d7137d6c900514d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4592aa63ba08715f737b78de44450545" name="a4592aa63ba08715f737b78de44450545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4592aa63ba08715f737b78de44450545">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..48c4893db
--- /dev/null
+++ b/gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1646 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lamb_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afcf8fbf4f5013c1082ce86fa5c3a5fd4" name="afcf8fbf4f5013c1082ce86fa5c3a5fd4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afcf8fbf4f5013c1082ce86fa5c3a5fd4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab184e11501d6d031e538c60ef66a8342" name="ab184e11501d6d031e538c60ef66a8342"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab184e11501d6d031e538c60ef66a8342">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fcac5f4fe8809ed79e52dd0b6cd3b33" name="a8fcac5f4fe8809ed79e52dd0b6cd3b33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fcac5f4fe8809ed79e52dd0b6cd3b33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a670bd91b158c44cc933ee13f4083d850" name="a670bd91b158c44cc933ee13f4083d850"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a670bd91b158c44cc933ee13f4083d850">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f22910d204e8c3b3e5ff55c9480a2e0" name="a0f22910d204e8c3b3e5ff55c9480a2e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f22910d204e8c3b3e5ff55c9480a2e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afa3433936e5b727b1211effc7414d937" name="afa3433936e5b727b1211effc7414d937"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afa3433936e5b727b1211effc7414d937">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe83f8be103b8fff8e2ef9d56910ff68" name="afe83f8be103b8fff8e2ef9d56910ff68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe83f8be103b8fff8e2ef9d56910ff68">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a899e0ed06ca2d908cf92842a6c8145f1" name="a899e0ed06ca2d908cf92842a6c8145f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a899e0ed06ca2d908cf92842a6c8145f1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed47ce83acf75979b426dc241ae12149" name="aed47ce83acf75979b426dc241ae12149"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed47ce83acf75979b426dc241ae12149">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3f634c3e17354623fb175e7ef20d939" name="ae3f634c3e17354623fb175e7ef20d939"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3f634c3e17354623fb175e7ef20d939">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..dd02fee55
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html
@@ -0,0 +1,313 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a68717d5b465de7efb3f58ca7f1c9c48e" name="a68717d5b465de7efb3f58ca7f1c9c48e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68717d5b465de7efb3f58ca7f1c9c48e">&#9670;&#160;</a></span>split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..ec72101fe
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1566 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8ea3bce56ea941e3716f81220ab88fe5" name="a8ea3bce56ea941e3716f81220ab88fe5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ea3bce56ea941e3716f81220ab88fe5">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa9702e86f8ed1788c7796017bdd404c" name="aaa9702e86f8ed1788c7796017bdd404c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa9702e86f8ed1788c7796017bdd404c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a36dbb2ed81d41998cd4ddd239f6e18ff" name="a36dbb2ed81d41998cd4ddd239f6e18ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36dbb2ed81d41998cd4ddd239f6e18ff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9668523612cb73bdea52956fff1a645d" name="a9668523612cb73bdea52956fff1a645d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9668523612cb73bdea52956fff1a645d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2f4c84a8e13733979d8c8eb160d8ab6" name="ac2f4c84a8e13733979d8c8eb160d8ab6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2f4c84a8e13733979d8c8eb160d8ab6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae9bd7c9d24668aa08267f29bcc8d579b" name="ae9bd7c9d24668aa08267f29bcc8d579b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae9bd7c9d24668aa08267f29bcc8d579b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3cf034bfeabf17e2c02ef5eff0e39d27" name="a3cf034bfeabf17e2c02ef5eff0e39d27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3cf034bfeabf17e2c02ef5eff0e39d27">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac8f9bf44e289b97fd4b68b3ac86e5fa2" name="ac8f9bf44e289b97fd4b68b3ac86e5fa2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8f9bf44e289b97fd4b68b3ac86e5fa2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad64afc5ea3a238f14048b1d678f617be" name="ad64afc5ea3a238f14048b1d678f617be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad64afc5ea3a238f14048b1d678f617be">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea8e820a7a4bc3fe64bb6c818542a3aa" name="aea8e820a7a4bc3fe64bb6c818542a3aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea8e820a7a4bc3fe64bb6c818542a3aa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..3ff78496f
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0c5ac630cac3e582871b2521984d3691" name="a0c5ac630cac3e582871b2521984d3691"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c5ac630cac3e582871b2521984d3691">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7be11e596974198a45beaacc4d9db0f" name="af7be11e596974198a45beaacc4d9db0f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7be11e596974198a45beaacc4d9db0f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acff100b57110e4d629c786c3535bf208" name="acff100b57110e4d629c786c3535bf208"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acff100b57110e4d629c786c3535bf208">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e740e6e3df02da3c05d0dfd940a2793" name="a9e740e6e3df02da3c05d0dfd940a2793"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e740e6e3df02da3c05d0dfd940a2793">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3be6a3a67f391545b95c03cdfeabab49" name="a3be6a3a67f391545b95c03cdfeabab49"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3be6a3a67f391545b95c03cdfeabab49">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3b0b53e46e934265545fef179bc4a42" name="af3b0b53e46e934265545fef179bc4a42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3b0b53e46e934265545fef179bc4a42">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a839068bef278b0cf5184340361f2db61" name="a839068bef278b0cf5184340361f2db61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a839068bef278b0cf5184340361f2db61">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af37b23a1376bb72a6936967e93403d29" name="af37b23a1376bb72a6936967e93403d29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af37b23a1376bb72a6936967e93403d29">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af72ccb394ff0a9c8bad2415b26124ee8" name="af72ccb394ff0a9c8bad2415b26124ee8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af72ccb394ff0a9c8bad2415b26124ee8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a47b1f486724dfb5ef0c59660725ba49e" name="a47b1f486724dfb5ef0c59660725ba49e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a47b1f486724dfb5ef0c59660725ba49e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..d26a6ec10
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,303 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0e0807f32e264e5a83586907ea3f6749" name="a0e0807f32e264e5a83586907ea3f6749"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e0807f32e264e5a83586907ea3f6749">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..810e247ae
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1be3f22e4eb6db21e09d922580c54faf" name="a1be3f22e4eb6db21e09d922580c54faf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1be3f22e4eb6db21e09d922580c54faf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a84b86dee7ee70d3e3ba5ae6f466c6f0e" name="a84b86dee7ee70d3e3ba5ae6f466c6f0e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84b86dee7ee70d3e3ba5ae6f466c6f0e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33595ad9426cb537c6e4e9c2bb0d1cfc" name="a33595ad9426cb537c6e4e9c2bb0d1cfc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33595ad9426cb537c6e4e9c2bb0d1cfc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a28402ef2cf3a1b34fdadac6a6ef06adf" name="a28402ef2cf3a1b34fdadac6a6ef06adf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28402ef2cf3a1b34fdadac6a6ef06adf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8a6cd9058bac3b6775b6057a8b0beb2" name="aa8a6cd9058bac3b6775b6057a8b0beb2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8a6cd9058bac3b6775b6057a8b0beb2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad25cc23c713ce4d2ce9a057d23d66b8c" name="ad25cc23c713ce4d2ce9a057d23d66b8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad25cc23c713ce4d2ce9a057d23d66b8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a837a847bd0e24c4c323f60f3cd49bb93" name="a837a847bd0e24c4c323f60f3cd49bb93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a837a847bd0e24c4c323f60f3cd49bb93">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abab241cb0bbbdda5a3d240feff95de96" name="abab241cb0bbbdda5a3d240feff95de96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abab241cb0bbbdda5a3d240feff95de96">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88eb41bb17cb58eaf37c6e5cc0ae1bfe" name="a88eb41bb17cb58eaf37c6e5cc0ae1bfe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88eb41bb17cb58eaf37c6e5cc0ae1bfe">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2992f3c3797e58777a7f7d6aff063137" name="a2992f3c3797e58777a7f7d6aff063137"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2992f3c3797e58777a7f7d6aff063137">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..57f116893
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a89a6fc31913b2347216065f4655b82ff" name="a89a6fc31913b2347216065f4655b82ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89a6fc31913b2347216065f4655b82ff">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a584ad4898a3e03f279eb3a39c419735e" name="a584ad4898a3e03f279eb3a39c419735e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a584ad4898a3e03f279eb3a39c419735e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e9aa9538f85f1a20881b99a619ff138" name="a0e9aa9538f85f1a20881b99a619ff138"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e9aa9538f85f1a20881b99a619ff138">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afcd6a68c14971422bbcac044bc2e5fe7" name="afcd6a68c14971422bbcac044bc2e5fe7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afcd6a68c14971422bbcac044bc2e5fe7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a6e51dcbe4f354b395c5ef3a8632e9b" name="a6a6e51dcbe4f354b395c5ef3a8632e9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a6e51dcbe4f354b395c5ef3a8632e9b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60837a52bb429e86372390ab093b5c3f" name="a60837a52bb429e86372390ab093b5c3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60837a52bb429e86372390ab093b5c3f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0bf41c3a1fa62e4aacaf4dd6e3ba1ac" name="ae0bf41c3a1fa62e4aacaf4dd6e3ba1ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0bf41c3a1fa62e4aacaf4dd6e3ba1ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2543bb59812617ba91ec36256ea579b5" name="a2543bb59812617ba91ec36256ea579b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2543bb59812617ba91ec36256ea579b5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab570073ba2f2dc988643433eb9ee56e3" name="ab570073ba2f2dc988643433eb9ee56e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab570073ba2f2dc988643433eb9ee56e3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a28fd1bfeb870e4192c831675880469bc" name="a28fd1bfeb870e4192c831675880469bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28fd1bfeb870e4192c831675880469bc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html b/gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..105935b95
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html
@@ -0,0 +1,318 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a3eff146e8f81f6d6dcc6e08f791b1c27" name="a3eff146e8f81f6d6dcc6e08f791b1c27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3eff146e8f81f6d6dcc6e08f791b1c27">&#9670;&#160;</a></span>split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..403d0734f
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa2038bd1822625bd55a38eed4240c39a" name="aa2038bd1822625bd55a38eed4240c39a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa2038bd1822625bd55a38eed4240c39a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae41fadf6abfe1e00dccedd18b90dab32" name="ae41fadf6abfe1e00dccedd18b90dab32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae41fadf6abfe1e00dccedd18b90dab32">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1da0aa99bcd3a3a2ad540eaba284bd08" name="a1da0aa99bcd3a3a2ad540eaba284bd08"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1da0aa99bcd3a3a2ad540eaba284bd08">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a331c0180e8dc65d864006a18ae10f3e7" name="a331c0180e8dc65d864006a18ae10f3e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a331c0180e8dc65d864006a18ae10f3e7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="accc2086d06273c59409c74b598e17066" name="accc2086d06273c59409c74b598e17066"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accc2086d06273c59409c74b598e17066">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb70eda92401330f9c430e33657f5390" name="abb70eda92401330f9c430e33657f5390"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb70eda92401330f9c430e33657f5390">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a87b68faad6789ef38e5ee96bdf0adadb" name="a87b68faad6789ef38e5ee96bdf0adadb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87b68faad6789ef38e5ee96bdf0adadb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba4fc1bf5159b001bdbeaed09bac28cf" name="aba4fc1bf5159b001bdbeaed09bac28cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba4fc1bf5159b001bdbeaed09bac28cf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a126c0d3c9315985228744121d10f65" name="a1a126c0d3c9315985228744121d10f65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a126c0d3c9315985228744121d10f65">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a021fc973b5fc3d624856c3095ea0d8c5" name="a021fc973b5fc3d624856c3095ea0d8c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a021fc973b5fc3d624856c3095ea0d8c5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..dc9794c0d
--- /dev/null
+++ b/gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9ba65eca59bd0b29e87b4adb5a444d1b" name="a9ba65eca59bd0b29e87b4adb5a444d1b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ba65eca59bd0b29e87b4adb5a444d1b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60776cad67cb695e9768c1ce170aed12" name="a60776cad67cb695e9768c1ce170aed12"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60776cad67cb695e9768c1ce170aed12">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53612aafa2641dc1c70fc11355c354c5" name="a53612aafa2641dc1c70fc11355c354c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53612aafa2641dc1c70fc11355c354c5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab9a28b117d8d2c802b31c3850cebf7ef" name="ab9a28b117d8d2c802b31c3850cebf7ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab9a28b117d8d2c802b31c3850cebf7ef">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7643d87610f1fd256807566fcae51c36" name="a7643d87610f1fd256807566fcae51c36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7643d87610f1fd256807566fcae51c36">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a80acf7650ec2712ea7d51f7d5156fc39" name="a80acf7650ec2712ea7d51f7d5156fc39"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80acf7650ec2712ea7d51f7d5156fc39">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f28593d442951ae04e27670c892fdc9" name="a7f28593d442951ae04e27670c892fdc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f28593d442951ae04e27670c892fdc9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d111c3d803b0ed234aec8f5604bec87" name="a1d111c3d803b0ed234aec8f5604bec87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d111c3d803b0ed234aec8f5604bec87">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a19120fdc3ff0a026755d36ddb40ff43b" name="a19120fdc3ff0a026755d36ddb40ff43b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a19120fdc3ff0a026755d36ddb40ff43b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46d814dea7a25a249b9e0fc0c82023ed" name="a46d814dea7a25a249b9e0fc0c82023ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46d814dea7a25a249b9e0fc0c82023ed">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__cuda_8cu.html b/gen__embedding__backward__none__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..9f53ccc5d
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__cuda_8cu.html
@@ -0,0 +1,272 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac780b945eb2c0cff713ff7280122da42" name="ac780b945eb2c0cff713ff7280122da42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac780b945eb2c0cff713ff7280122da42">&#9670;&#160;</a></span>split_embedding_backward_codegen_none_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_none_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..251286437
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1165 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="adb6e98291bfdb46d09389b2b453e54b2" name="adb6e98291bfdb46d09389b2b453e54b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb6e98291bfdb46d09389b2b453e54b2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab6d47d46fccfb5d973f8ff2a44bff7a" name="aab6d47d46fccfb5d973f8ff2a44bff7a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab6d47d46fccfb5d973f8ff2a44bff7a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0bf2b9756ea833bf245d6fd93a68bba2" name="a0bf2b9756ea833bf245d6fd93a68bba2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0bf2b9756ea833bf245d6fd93a68bba2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff46c2a59e01f53a86a7b0d79a618a13" name="aff46c2a59e01f53a86a7b0d79a618a13"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff46c2a59e01f53a86a7b0d79a618a13">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae1896638d5d062dd4fdb76ea25fa25ad" name="ae1896638d5d062dd4fdb76ea25fa25ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1896638d5d062dd4fdb76ea25fa25ad">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a13fd2498aed38e9bc488bba7aed3c70c" name="a13fd2498aed38e9bc488bba7aed3c70c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a13fd2498aed38e9bc488bba7aed3c70c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1495ee920385d2c17517f402e4f2f1d3" name="a1495ee920385d2c17517f402e4f2f1d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1495ee920385d2c17517f402e4f2f1d3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef14d493a157796b5d5b3708471dd5f9" name="aef14d493a157796b5d5b3708471dd5f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef14d493a157796b5d5b3708471dd5f9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab8efedfe2eecb8e722290e8670b57be" name="aab8efedfe2eecb8e722290e8670b57be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab8efedfe2eecb8e722290e8670b57be">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a459aacd66b48c479d5773c84d129086d" name="a459aacd66b48c479d5773c84d129086d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a459aacd66b48c479d5773c84d129086d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..bc98cf9d0
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,561 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9d6d3f6a070db2a520adb97ff89e7f1c" name="a9d6d3f6a070db2a520adb97ff89e7f1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d6d3f6a070db2a520adb97ff89e7f1c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adda6d498fce399be1bb4ff6c884cd325" name="adda6d498fce399be1bb4ff6c884cd325"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adda6d498fce399be1bb4ff6c884cd325">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a93379bd0b52108c09ce0c6012c1a0bc4" name="a93379bd0b52108c09ce0c6012c1a0bc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93379bd0b52108c09ce0c6012c1a0bc4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe7a518fe77140a9f84658b9be73ca57" name="abe7a518fe77140a9f84658b9be73ca57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe7a518fe77140a9f84658b9be73ca57">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0424cc55d1baf826ec4665dc699c0ee8" name="a0424cc55d1baf826ec4665dc699c0ee8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0424cc55d1baf826ec4665dc699c0ee8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07fe51377b6ac8933fda5657824dfa00" name="a07fe51377b6ac8933fda5657824dfa00"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07fe51377b6ac8933fda5657824dfa00">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..d3674f644
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,262 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af181f8da92e59fb5da465d0931859e77" name="af181f8da92e59fb5da465d0931859e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af181f8da92e59fb5da465d0931859e77">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..6e77503d3
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1085 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a3c38980139cb0d10bc2d195479a69fb4" name="a3c38980139cb0d10bc2d195479a69fb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c38980139cb0d10bc2d195479a69fb4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a55340037f2150aa438d4cb6675412e7e" name="a55340037f2150aa438d4cb6675412e7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55340037f2150aa438d4cb6675412e7e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67e2d754aeb8030c70dfdf94358cac76" name="a67e2d754aeb8030c70dfdf94358cac76"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67e2d754aeb8030c70dfdf94358cac76">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805ef69c6e5b5bbd4a5d70b053dc8940" name="a805ef69c6e5b5bbd4a5d70b053dc8940"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805ef69c6e5b5bbd4a5d70b053dc8940">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1aa0bffadd8de61d9327613f1b0c3d8d" name="a1aa0bffadd8de61d9327613f1b0c3d8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1aa0bffadd8de61d9327613f1b0c3d8d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6dac18027510aba99d797d8c340fa0c" name="aa6dac18027510aba99d797d8c340fa0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6dac18027510aba99d797d8c340fa0c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c887e7cd209eff2be60616a0eb2ea9f" name="a6c887e7cd209eff2be60616a0eb2ea9f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c887e7cd209eff2be60616a0eb2ea9f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5be30952d02614260f81e9b29d17f767" name="a5be30952d02614260f81e9b29d17f767"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5be30952d02614260f81e9b29d17f767">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af1b7ece649e9d0dbeb4a372364cfbf54" name="af1b7ece649e9d0dbeb4a372364cfbf54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af1b7ece649e9d0dbeb4a372364cfbf54">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9efa56f919a034ad1c2eb4339babfacd" name="a9efa56f919a034ad1c2eb4339babfacd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9efa56f919a034ad1c2eb4339babfacd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..571f34906
--- /dev/null
+++ b/gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,521 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae53e64a9190921226cba0e54595de4af" name="ae53e64a9190921226cba0e54595de4af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae53e64a9190921226cba0e54595de4af">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c8f5295879f30dac04285180744b05b" name="a6c8f5295879f30dac04285180744b05b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c8f5295879f30dac04285180744b05b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a65221171b1118ec811d883a600b7eb" name="a9a65221171b1118ec811d883a600b7eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a65221171b1118ec811d883a600b7eb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a216facff7aab2092d3300f52f73f441c" name="a216facff7aab2092d3300f52f73f441c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a216facff7aab2092d3300f52f73f441c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac42deea1306a7165392cc02c0c962381" name="ac42deea1306a7165392cc02c0c962381"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac42deea1306a7165392cc02c0c962381">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab111a2635d39331e5dde581b2cf5ab40" name="ab111a2635d39331e5dde581b2cf5ab40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab111a2635d39331e5dde581b2cf5ab40">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__weighted__cuda_8cu.html b/gen__embedding__backward__none__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..492c761c1
--- /dev/null
+++ b/gen__embedding__backward__none__split__weighted__cuda_8cu.html
@@ -0,0 +1,277 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a12b41a32a38b812420382dfb33a09e17" name="a12b41a32a38b812420382dfb33a09e17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12b41a32a38b812420382dfb33a09e17">&#9670;&#160;</a></span>split_embedding_backward_codegen_none_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_none_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..4f70c3110
--- /dev/null
+++ b/gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1205 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a49683c14f18b75fafd2a5ce3f90c7d61" name="a49683c14f18b75fafd2a5ce3f90c7d61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49683c14f18b75fafd2a5ce3f90c7d61">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a78a9d364ed7043a1412228b17a0406a1" name="a78a9d364ed7043a1412228b17a0406a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a78a9d364ed7043a1412228b17a0406a1">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa2f1fe9cdd926d486017e9c9e3ee401e" name="aa2f1fe9cdd926d486017e9c9e3ee401e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa2f1fe9cdd926d486017e9c9e3ee401e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abcac665cc8837bd07d64ee1f1d22c9bd" name="abcac665cc8837bd07d64ee1f1d22c9bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcac665cc8837bd07d64ee1f1d22c9bd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1627d1331758cf0987f80b531597de96" name="a1627d1331758cf0987f80b531597de96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1627d1331758cf0987f80b531597de96">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1916dad21c1174ed094bf7cb9990674f" name="a1916dad21c1174ed094bf7cb9990674f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1916dad21c1174ed094bf7cb9990674f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5731f2347a6fc9cfce399131b7535c72" name="a5731f2347a6fc9cfce399131b7535c72"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5731f2347a6fc9cfce399131b7535c72">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1628e1fb812ec5d70a2a3701145ae3dd" name="a1628e1fb812ec5d70a2a3701145ae3dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1628e1fb812ec5d70a2a3701145ae3dd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3af1e6fa25253eb084459b3d13ebf58a" name="a3af1e6fa25253eb084459b3d13ebf58a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3af1e6fa25253eb084459b3d13ebf58a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2dcf33b730969fab9d8d9e13f5812500" name="a2dcf33b730969fab9d8d9e13f5812500"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2dcf33b730969fab9d8d9e13f5812500">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..c890b3786
--- /dev/null
+++ b/gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1005 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_none_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_none_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="acd2e3179752c56bfdde47a8ad7a00220" name="acd2e3179752c56bfdde47a8ad7a00220"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd2e3179752c56bfdde47a8ad7a00220">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4d483ee9ae74898f27f8070e41c4fced" name="a4d483ee9ae74898f27f8070e41c4fced"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4d483ee9ae74898f27f8070e41c4fced">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a376fefbb04f4e4d081447881d6aa3ca7" name="a376fefbb04f4e4d081447881d6aa3ca7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a376fefbb04f4e4d081447881d6aa3ca7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad3382f93d63430516e0fa4ee3dfcd35b" name="ad3382f93d63430516e0fa4ee3dfcd35b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad3382f93d63430516e0fa4ee3dfcd35b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88e9b91386946c328e4ea9cd1074af16" name="a88e9b91386946c328e4ea9cd1074af16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88e9b91386946c328e4ea9cd1074af16">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a99d2945d0e14c762a262971ad5cdddca" name="a99d2945d0e14c762a262971ad5cdddca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99d2945d0e14c762a262971ad5cdddca">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a946e1b9e34decc6ef732c17c06eaf67b" name="a946e1b9e34decc6ef732c17c06eaf67b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a946e1b9e34decc6ef732c17c06eaf67b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ac5aa9e7a97b988f21d79f2c77e8a42" name="a4ac5aa9e7a97b988f21d79f2c77e8a42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ac5aa9e7a97b988f21d79f2c77e8a42">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6ad697b6cced262fbf9c5329af882295" name="a6ad697b6cced262fbf9c5329af882295"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ad697b6cced262fbf9c5329af882295">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58dd95b539386ce0756417ffa7e3c675" name="a58dd95b539386ce0756417ffa7e3c675"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58dd95b539386ce0756417ffa7e3c675">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..00bf2d8ec
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html
@@ -0,0 +1,337 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4d39b6b803c05c33caf58b4a2fbf37ac" name="a4d39b6b803c05c33caf58b4a2fbf37ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4d39b6b803c05c33caf58b4a2fbf37ac">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..a52d47c2a
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1806 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a440dc2054a1346ad291f617540be2e25" name="a440dc2054a1346ad291f617540be2e25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a440dc2054a1346ad291f617540be2e25">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afaf745a30243c0c755429f1b1d465f2d" name="afaf745a30243c0c755429f1b1d465f2d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afaf745a30243c0c755429f1b1d465f2d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1314b4ae40316edeea56f92f7e28410c" name="a1314b4ae40316edeea56f92f7e28410c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1314b4ae40316edeea56f92f7e28410c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab520b5026f77d9694c578169268d8f2b" name="ab520b5026f77d9694c578169268d8f2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab520b5026f77d9694c578169268d8f2b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa98ce75bc9f2d7c2e1cc4436470c150e" name="aa98ce75bc9f2d7c2e1cc4436470c150e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa98ce75bc9f2d7c2e1cc4436470c150e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11b57ed4691d1c773211ef5481a6dd02" name="a11b57ed4691d1c773211ef5481a6dd02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11b57ed4691d1c773211ef5481a6dd02">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba8c5712b7a8fce9f51ee8108dcb79f2" name="aba8c5712b7a8fce9f51ee8108dcb79f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba8c5712b7a8fce9f51ee8108dcb79f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaca84bf78edcf873560f46ba711426c4" name="aaca84bf78edcf873560f46ba711426c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaca84bf78edcf873560f46ba711426c4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3911285f507951daf865d22e1dc2d7e9" name="a3911285f507951daf865d22e1dc2d7e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3911285f507951daf865d22e1dc2d7e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a458b855930bbc15ecb8cd6980db76490" name="a458b855930bbc15ecb8cd6980db76490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a458b855930bbc15ecb8cd6980db76490">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..d4ecf8ce2
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab435787b7738dff4daa1eca5ed8725dd" name="ab435787b7738dff4daa1eca5ed8725dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab435787b7738dff4daa1eca5ed8725dd">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a809fb9fd9f5386090e58c2fdd7f05bbd" name="a809fb9fd9f5386090e58c2fdd7f05bbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a809fb9fd9f5386090e58c2fdd7f05bbd">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ecd7c3b11cae2bd14c04414fdf39d43" name="a0ecd7c3b11cae2bd14c04414fdf39d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ecd7c3b11cae2bd14c04414fdf39d43">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65bd36be5843d363a2eb37a79abc423e" name="a65bd36be5843d363a2eb37a79abc423e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65bd36be5843d363a2eb37a79abc423e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe4fa4f0b7eca5152a57e65d0310bc97" name="afe4fa4f0b7eca5152a57e65d0310bc97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe4fa4f0b7eca5152a57e65d0310bc97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e70fccd2a1e2a9e2135f0b38f7fb8b3" name="a0e70fccd2a1e2a9e2135f0b38f7fb8b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e70fccd2a1e2a9e2135f0b38f7fb8b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f79732380b8f26101bbb5a5877b0d97" name="a4f79732380b8f26101bbb5a5877b0d97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f79732380b8f26101bbb5a5877b0d97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c116db6b09393487355778e5d0ba3e0" name="a3c116db6b09393487355778e5d0ba3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c116db6b09393487355778e5d0ba3e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb6922c94e0bc8151481e453e7fbd2f7" name="abb6922c94e0bc8151481e453e7fbd2f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb6922c94e0bc8151481e453e7fbd2f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94054b18dcd5508cb296f050eafaac8c" name="a94054b18dcd5508cb296f050eafaac8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94054b18dcd5508cb296f050eafaac8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..d34a21324
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,327 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a96e4c395674727814da03c2e1654487b" name="a96e4c395674727814da03c2e1654487b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96e4c395674727814da03c2e1654487b">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..d95d288dc
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1726 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a250b8485cb708a3fe1d789613014b238" name="a250b8485cb708a3fe1d789613014b238"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a250b8485cb708a3fe1d789613014b238">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4996180a982a92cb9151e2557777d77a" name="a4996180a982a92cb9151e2557777d77a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4996180a982a92cb9151e2557777d77a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8cd9718877e1b127bdbe2690289a634" name="ad8cd9718877e1b127bdbe2690289a634"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8cd9718877e1b127bdbe2690289a634">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a97e63874df3289ce3294d46e2e016b05" name="a97e63874df3289ce3294d46e2e016b05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97e63874df3289ce3294d46e2e016b05">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7268248be04d72669a01dec69dc41c6a" name="a7268248be04d72669a01dec69dc41c6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7268248be04d72669a01dec69dc41c6a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b831b47546fedc2c25d2ade8b88b756" name="a2b831b47546fedc2c25d2ade8b88b756"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b831b47546fedc2c25d2ade8b88b756">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f12331e96d80708241cc08cea4b1fcf" name="a2f12331e96d80708241cc08cea4b1fcf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f12331e96d80708241cc08cea4b1fcf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54c18b3c9a1558b1f501088330c13c50" name="a54c18b3c9a1558b1f501088330c13c50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54c18b3c9a1558b1f501088330c13c50">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7898e52d82e5ed49f5b81644674cccf6" name="a7898e52d82e5ed49f5b81644674cccf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7898e52d82e5ed49f5b81644674cccf6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa277c49633d92fd3ea4687ea0f01803e" name="aa277c49633d92fd3ea4687ea0f01803e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa277c49633d92fd3ea4687ea0f01803e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..b93dc0507
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae96e8ad601ac1adb859d3aec074bb439" name="ae96e8ad601ac1adb859d3aec074bb439"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae96e8ad601ac1adb859d3aec074bb439">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae28f985f3c5d59410f3fd6c2a99d9320" name="ae28f985f3c5d59410f3fd6c2a99d9320"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae28f985f3c5d59410f3fd6c2a99d9320">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab25d29756405f0c6cd77f9374cbc4eb7" name="ab25d29756405f0c6cd77f9374cbc4eb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab25d29756405f0c6cd77f9374cbc4eb7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96d20178b145f86f646dd54cc65a4689" name="a96d20178b145f86f646dd54cc65a4689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96d20178b145f86f646dd54cc65a4689">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c52e587496d1304d86d780ab48907bf" name="a0c52e587496d1304d86d780ab48907bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c52e587496d1304d86d780ab48907bf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a189144e6ce32a982c752160cfb103ec8" name="a189144e6ce32a982c752160cfb103ec8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a189144e6ce32a982c752160cfb103ec8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a384c7aad1eb1b9b6e688ece904ad37e8" name="a384c7aad1eb1b9b6e688ece904ad37e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a384c7aad1eb1b9b6e688ece904ad37e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae901e5d211562a991d8626c0336b0d91" name="ae901e5d211562a991d8626c0336b0d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae901e5d211562a991d8626c0336b0d91">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12157bf0f49e84150a01fe1696cd2517" name="a12157bf0f49e84150a01fe1696cd2517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12157bf0f49e84150a01fe1696cd2517">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2cf38bc095adda2d396c87d8abcc41e" name="af2cf38bc095adda2d396c87d8abcc41e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2cf38bc095adda2d396c87d8abcc41e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..3d91fcc9b
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html
@@ -0,0 +1,342 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac295880f03c86cb263b324158e460e82" name="ac295880f03c86cb263b324158e460e82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac295880f03c86cb263b324158e460e82">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..80c6786ac
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1846 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a59f00431d3950b72f6e7d89baf3fde0b" name="a59f00431d3950b72f6e7d89baf3fde0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59f00431d3950b72f6e7d89baf3fde0b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f233fc13ea7dbc092ed3c22b2bf1a7f" name="a2f233fc13ea7dbc092ed3c22b2bf1a7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f233fc13ea7dbc092ed3c22b2bf1a7f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6e87f8f718d28dac18c176645cc0177" name="ad6e87f8f718d28dac18c176645cc0177"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6e87f8f718d28dac18c176645cc0177">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affb72e0053cfe9211f9e16b0cfadc0ac" name="affb72e0053cfe9211f9e16b0cfadc0ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affb72e0053cfe9211f9e16b0cfadc0ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e4660a5830af64e9d350bb97c1e3a33" name="a3e4660a5830af64e9d350bb97c1e3a33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e4660a5830af64e9d350bb97c1e3a33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af70ed3aa3b3e9f4ef10054777ea73ab1" name="af70ed3aa3b3e9f4ef10054777ea73ab1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af70ed3aa3b3e9f4ef10054777ea73ab1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f2f9af58b42f9000c6afc0ede01f437" name="a2f2f9af58b42f9000c6afc0ede01f437"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f2f9af58b42f9000c6afc0ede01f437">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4d004ac86d256e60d311e9968760ace" name="ae4d004ac86d256e60d311e9968760ace"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4d004ac86d256e60d311e9968760ace">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae67b8281998dc6618d7137d6c900514d" name="ae67b8281998dc6618d7137d6c900514d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae67b8281998dc6618d7137d6c900514d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4592aa63ba08715f737b78de44450545" name="a4592aa63ba08715f737b78de44450545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4592aa63ba08715f737b78de44450545">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..02c808573
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1646 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a965b9c456ca6a6dffb664f585401250d" name="a965b9c456ca6a6dffb664f585401250d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a965b9c456ca6a6dffb664f585401250d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69d372f391200ef3cafedad093a5470f" name="a69d372f391200ef3cafedad093a5470f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69d372f391200ef3cafedad093a5470f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fcac5f4fe8809ed79e52dd0b6cd3b33" name="a8fcac5f4fe8809ed79e52dd0b6cd3b33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fcac5f4fe8809ed79e52dd0b6cd3b33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a670bd91b158c44cc933ee13f4083d850" name="a670bd91b158c44cc933ee13f4083d850"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a670bd91b158c44cc933ee13f4083d850">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f22910d204e8c3b3e5ff55c9480a2e0" name="a0f22910d204e8c3b3e5ff55c9480a2e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f22910d204e8c3b3e5ff55c9480a2e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb5bc6565be4b9b6cc47cb4ca0d02a12" name="abb5bc6565be4b9b6cc47cb4ca0d02a12"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb5bc6565be4b9b6cc47cb4ca0d02a12">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe83f8be103b8fff8e2ef9d56910ff68" name="afe83f8be103b8fff8e2ef9d56910ff68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe83f8be103b8fff8e2ef9d56910ff68">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a899e0ed06ca2d908cf92842a6c8145f1" name="a899e0ed06ca2d908cf92842a6c8145f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a899e0ed06ca2d908cf92842a6c8145f1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed47ce83acf75979b426dc241ae12149" name="aed47ce83acf75979b426dc241ae12149"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed47ce83acf75979b426dc241ae12149">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3f634c3e17354623fb175e7ef20d939" name="ae3f634c3e17354623fb175e7ef20d939"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3f634c3e17354623fb175e7ef20d939">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..07ec14712
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html
@@ -0,0 +1,337 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a561ce0f1da43ca47001db85a395203e1" name="a561ce0f1da43ca47001db85a395203e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a561ce0f1da43ca47001db85a395203e1">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..049733cba
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1806 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad23ff52f91efba0cbff48134c3a42bc4" name="ad23ff52f91efba0cbff48134c3a42bc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad23ff52f91efba0cbff48134c3a42bc4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa9475900cea03cb0a61e0e16932e01a4" name="aa9475900cea03cb0a61e0e16932e01a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9475900cea03cb0a61e0e16932e01a4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1314b4ae40316edeea56f92f7e28410c" name="a1314b4ae40316edeea56f92f7e28410c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1314b4ae40316edeea56f92f7e28410c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab520b5026f77d9694c578169268d8f2b" name="ab520b5026f77d9694c578169268d8f2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab520b5026f77d9694c578169268d8f2b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa98ce75bc9f2d7c2e1cc4436470c150e" name="aa98ce75bc9f2d7c2e1cc4436470c150e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa98ce75bc9f2d7c2e1cc4436470c150e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1752a413ef2e5ee8694cbed313bd3c9b" name="a1752a413ef2e5ee8694cbed313bd3c9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1752a413ef2e5ee8694cbed313bd3c9b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba8c5712b7a8fce9f51ee8108dcb79f2" name="aba8c5712b7a8fce9f51ee8108dcb79f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba8c5712b7a8fce9f51ee8108dcb79f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaca84bf78edcf873560f46ba711426c4" name="aaca84bf78edcf873560f46ba711426c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaca84bf78edcf873560f46ba711426c4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3911285f507951daf865d22e1dc2d7e9" name="a3911285f507951daf865d22e1dc2d7e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3911285f507951daf865d22e1dc2d7e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a458b855930bbc15ecb8cd6980db76490" name="a458b855930bbc15ecb8cd6980db76490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a458b855930bbc15ecb8cd6980db76490">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..a861a770b
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aeea6e4ebbd44a284f8e1078cf3efdaad" name="aeea6e4ebbd44a284f8e1078cf3efdaad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeea6e4ebbd44a284f8e1078cf3efdaad">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a75a810317afae4c2a93af95f80855d42" name="a75a810317afae4c2a93af95f80855d42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a75a810317afae4c2a93af95f80855d42">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ecd7c3b11cae2bd14c04414fdf39d43" name="a0ecd7c3b11cae2bd14c04414fdf39d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ecd7c3b11cae2bd14c04414fdf39d43">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65bd36be5843d363a2eb37a79abc423e" name="a65bd36be5843d363a2eb37a79abc423e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65bd36be5843d363a2eb37a79abc423e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe4fa4f0b7eca5152a57e65d0310bc97" name="afe4fa4f0b7eca5152a57e65d0310bc97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe4fa4f0b7eca5152a57e65d0310bc97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aafa7d80ed4b830a47066853afca5adb8" name="aafa7d80ed4b830a47066853afca5adb8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aafa7d80ed4b830a47066853afca5adb8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f79732380b8f26101bbb5a5877b0d97" name="a4f79732380b8f26101bbb5a5877b0d97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f79732380b8f26101bbb5a5877b0d97">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c116db6b09393487355778e5d0ba3e0" name="a3c116db6b09393487355778e5d0ba3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c116db6b09393487355778e5d0ba3e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb6922c94e0bc8151481e453e7fbd2f7" name="abb6922c94e0bc8151481e453e7fbd2f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb6922c94e0bc8151481e453e7fbd2f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94054b18dcd5508cb296f050eafaac8c" name="a94054b18dcd5508cb296f050eafaac8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94054b18dcd5508cb296f050eafaac8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..2814f8526
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,327 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a41c428effc52b315649ebd4bda728619" name="a41c428effc52b315649ebd4bda728619"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a41c428effc52b315649ebd4bda728619">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..e9330acb8
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1726 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a41774547fd61442443c1967f1a8e8b13" name="a41774547fd61442443c1967f1a8e8b13"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a41774547fd61442443c1967f1a8e8b13">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa41bfc39f4114bbad7186e4b9b480da3" name="aa41bfc39f4114bbad7186e4b9b480da3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa41bfc39f4114bbad7186e4b9b480da3">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8cd9718877e1b127bdbe2690289a634" name="ad8cd9718877e1b127bdbe2690289a634"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8cd9718877e1b127bdbe2690289a634">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a97e63874df3289ce3294d46e2e016b05" name="a97e63874df3289ce3294d46e2e016b05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97e63874df3289ce3294d46e2e016b05">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7268248be04d72669a01dec69dc41c6a" name="a7268248be04d72669a01dec69dc41c6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7268248be04d72669a01dec69dc41c6a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab0ee6537f36eac8a7a5af1623b9034a1" name="ab0ee6537f36eac8a7a5af1623b9034a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0ee6537f36eac8a7a5af1623b9034a1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f12331e96d80708241cc08cea4b1fcf" name="a2f12331e96d80708241cc08cea4b1fcf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f12331e96d80708241cc08cea4b1fcf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54c18b3c9a1558b1f501088330c13c50" name="a54c18b3c9a1558b1f501088330c13c50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54c18b3c9a1558b1f501088330c13c50">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7898e52d82e5ed49f5b81644674cccf6" name="a7898e52d82e5ed49f5b81644674cccf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7898e52d82e5ed49f5b81644674cccf6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa277c49633d92fd3ea4687ea0f01803e" name="aa277c49633d92fd3ea4687ea0f01803e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa277c49633d92fd3ea4687ea0f01803e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..6b2eadfa1
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a84d2573599cb14db8200acded518dd53" name="a84d2573599cb14db8200acded518dd53"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84d2573599cb14db8200acded518dd53">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad3410f599c95c3268541e72f9684f82b" name="ad3410f599c95c3268541e72f9684f82b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad3410f599c95c3268541e72f9684f82b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab25d29756405f0c6cd77f9374cbc4eb7" name="ab25d29756405f0c6cd77f9374cbc4eb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab25d29756405f0c6cd77f9374cbc4eb7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96d20178b145f86f646dd54cc65a4689" name="a96d20178b145f86f646dd54cc65a4689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96d20178b145f86f646dd54cc65a4689">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c52e587496d1304d86d780ab48907bf" name="a0c52e587496d1304d86d780ab48907bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c52e587496d1304d86d780ab48907bf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12afc30313df2164ef2c299b47d3762f" name="a12afc30313df2164ef2c299b47d3762f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12afc30313df2164ef2c299b47d3762f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a384c7aad1eb1b9b6e688ece904ad37e8" name="a384c7aad1eb1b9b6e688ece904ad37e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a384c7aad1eb1b9b6e688ece904ad37e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae901e5d211562a991d8626c0336b0d91" name="ae901e5d211562a991d8626c0336b0d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae901e5d211562a991d8626c0336b0d91">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12157bf0f49e84150a01fe1696cd2517" name="a12157bf0f49e84150a01fe1696cd2517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12157bf0f49e84150a01fe1696cd2517">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2cf38bc095adda2d396c87d8abcc41e" name="af2cf38bc095adda2d396c87d8abcc41e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2cf38bc095adda2d396c87d8abcc41e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..49556318e
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html
@@ -0,0 +1,342 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a70ac0537228900edc94bbd437c550a15" name="a70ac0537228900edc94bbd437c550a15"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70ac0537228900edc94bbd437c550a15">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..11065c374
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1846 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aee08a6146cbf90f361a828e6d2ff4ede" name="aee08a6146cbf90f361a828e6d2ff4ede"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee08a6146cbf90f361a828e6d2ff4ede">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12bca8c5fdd115d24668beab2bb8ea27" name="a12bca8c5fdd115d24668beab2bb8ea27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12bca8c5fdd115d24668beab2bb8ea27">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6e87f8f718d28dac18c176645cc0177" name="ad6e87f8f718d28dac18c176645cc0177"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6e87f8f718d28dac18c176645cc0177">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affb72e0053cfe9211f9e16b0cfadc0ac" name="affb72e0053cfe9211f9e16b0cfadc0ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affb72e0053cfe9211f9e16b0cfadc0ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e4660a5830af64e9d350bb97c1e3a33" name="a3e4660a5830af64e9d350bb97c1e3a33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e4660a5830af64e9d350bb97c1e3a33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab41d9b72247799b42c181dc59e842a2f" name="ab41d9b72247799b42c181dc59e842a2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab41d9b72247799b42c181dc59e842a2f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f2f9af58b42f9000c6afc0ede01f437" name="a2f2f9af58b42f9000c6afc0ede01f437"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f2f9af58b42f9000c6afc0ede01f437">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4d004ac86d256e60d311e9968760ace" name="ae4d004ac86d256e60d311e9968760ace"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4d004ac86d256e60d311e9968760ace">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae67b8281998dc6618d7137d6c900514d" name="ae67b8281998dc6618d7137d6c900514d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae67b8281998dc6618d7137d6c900514d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4592aa63ba08715f737b78de44450545" name="a4592aa63ba08715f737b78de44450545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4592aa63ba08715f737b78de44450545">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..0ba7b5939
--- /dev/null
+++ b/gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1646 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae203f025f99b18448dfd355a519c4121" name="ae203f025f99b18448dfd355a519c4121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae203f025f99b18448dfd355a519c4121">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a87a9718ff816d6e1bdd9dca8e067e341" name="a87a9718ff816d6e1bdd9dca8e067e341"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87a9718ff816d6e1bdd9dca8e067e341">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fcac5f4fe8809ed79e52dd0b6cd3b33" name="a8fcac5f4fe8809ed79e52dd0b6cd3b33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fcac5f4fe8809ed79e52dd0b6cd3b33">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a670bd91b158c44cc933ee13f4083d850" name="a670bd91b158c44cc933ee13f4083d850"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a670bd91b158c44cc933ee13f4083d850">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f22910d204e8c3b3e5ff55c9480a2e0" name="a0f22910d204e8c3b3e5ff55c9480a2e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f22910d204e8c3b3e5ff55c9480a2e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2aa1026f9d94c927bfdc7d12f23f8626" name="a2aa1026f9d94c927bfdc7d12f23f8626"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2aa1026f9d94c927bfdc7d12f23f8626">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe83f8be103b8fff8e2ef9d56910ff68" name="afe83f8be103b8fff8e2ef9d56910ff68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe83f8be103b8fff8e2ef9d56910ff68">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a899e0ed06ca2d908cf92842a6c8145f1" name="a899e0ed06ca2d908cf92842a6c8145f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a899e0ed06ca2d908cf92842a6c8145f1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed47ce83acf75979b426dc241ae12149" name="aed47ce83acf75979b426dc241ae12149"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed47ce83acf75979b426dc241ae12149">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3f634c3e17354623fb175e7ef20d939" name="ae3f634c3e17354623fb175e7ef20d939"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3f634c3e17354623fb175e7ef20d939">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html b/gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html
new file mode 100644
index 000000000..490ad0a82
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html
@@ -0,0 +1,267 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a73c1fd212c2c324e57b0f906a2598360" name="a73c1fd212c2c324e57b0f906a2598360"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73c1fd212c2c324e57b0f906a2598360">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..c9ce0e4ba
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html
@@ -0,0 +1,312 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aca4e3268cb308c63a299f50cde66dec1" name="aca4e3268cb308c63a299f50cde66dec1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca4e3268cb308c63a299f50cde66dec1">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..986688a4f
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a84dcaeb939254f551d6c356d1eca8747" name="a84dcaeb939254f551d6c356d1eca8747"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84dcaeb939254f551d6c356d1eca8747">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af8829bdb0d543a40bb769900d36ea13e" name="af8829bdb0d543a40bb769900d36ea13e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8829bdb0d543a40bb769900d36ea13e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69800c08002e6a964629da3691cfa699" name="a69800c08002e6a964629da3691cfa699"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69800c08002e6a964629da3691cfa699">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6b46d8dad6badf1a2e13000e0809359" name="ad6b46d8dad6badf1a2e13000e0809359"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6b46d8dad6badf1a2e13000e0809359">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4d4d95ee827c360821c77e0f6a5b533c" name="a4d4d95ee827c360821c77e0f6a5b533c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4d4d95ee827c360821c77e0f6a5b533c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a4b7c2d1fb4fe724a9ddcefe4a3ad96" name="a1a4b7c2d1fb4fe724a9ddcefe4a3ad96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a4b7c2d1fb4fe724a9ddcefe4a3ad96">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9113b72a8883bfe52a840eaf6bf0bcc" name="ac9113b72a8883bfe52a840eaf6bf0bcc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9113b72a8883bfe52a840eaf6bf0bcc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adde42935e2ebd0c4cbfb5a925c603d3c" name="adde42935e2ebd0c4cbfb5a925c603d3c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adde42935e2ebd0c4cbfb5a925c603d3c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac73098f12c44ace7bd0c6ed29d1acb5" name="aac73098f12c44ace7bd0c6ed29d1acb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac73098f12c44ace7bd0c6ed29d1acb5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a015143a1cf9641909ef5739492836ab9" name="a015143a1cf9641909ef5739492836ab9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a015143a1cf9641909ef5739492836ab9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..63de39288
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae9187ee78b193e34f92875da955dc6de" name="ae9187ee78b193e34f92875da955dc6de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae9187ee78b193e34f92875da955dc6de">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae7b604d06f2afe4b8d99b94b6a7ca46f" name="ae7b604d06f2afe4b8d99b94b6a7ca46f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae7b604d06f2afe4b8d99b94b6a7ca46f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa47b1b3531724ee008b8a88a913375d4" name="aa47b1b3531724ee008b8a88a913375d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa47b1b3531724ee008b8a88a913375d4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6c8d616d0e8c2d6738c38fece880943" name="af6c8d616d0e8c2d6738c38fece880943"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6c8d616d0e8c2d6738c38fece880943">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a157d6cc11ad0a2f4127709df3181d056" name="a157d6cc11ad0a2f4127709df3181d056"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a157d6cc11ad0a2f4127709df3181d056">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a502058fc25fa19bb0cd2e7cfa440c82f" name="a502058fc25fa19bb0cd2e7cfa440c82f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a502058fc25fa19bb0cd2e7cfa440c82f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa9a73b585d5c585477687c3b42859fbf" name="aa9a73b585d5c585477687c3b42859fbf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9a73b585d5c585477687c3b42859fbf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a68d39c92f33a5fb23bf494df10381aa7" name="a68d39c92f33a5fb23bf494df10381aa7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68d39c92f33a5fb23bf494df10381aa7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6ec6ef39c438b48fc5ff99850376c2e2" name="a6ec6ef39c438b48fc5ff99850376c2e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ec6ef39c438b48fc5ff99850376c2e2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac0a2c283925ea0172a022b44ec4420ab" name="ac0a2c283925ea0172a022b44ec4420ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0a2c283925ea0172a022b44ec4420ab">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..e058e5964
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,302 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a05fd1c9f2aea152f9cbe2def957c66fb" name="a05fd1c9f2aea152f9cbe2def957c66fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05fd1c9f2aea152f9cbe2def957c66fb">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..996466965
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a65ebc941a004af813be547c2114c6eca" name="a65ebc941a004af813be547c2114c6eca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65ebc941a004af813be547c2114c6eca">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaba75f921548599cff242a4033a381c9" name="aaba75f921548599cff242a4033a381c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaba75f921548599cff242a4033a381c9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a942425624762de23778b8ea3b8da1267" name="a942425624762de23778b8ea3b8da1267"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a942425624762de23778b8ea3b8da1267">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a929c9944210d7078c0bcc89ae2ad2239" name="a929c9944210d7078c0bcc89ae2ad2239"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a929c9944210d7078c0bcc89ae2ad2239">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4b2cdd16081fdd55ef997fcba11943b3" name="a4b2cdd16081fdd55ef997fcba11943b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b2cdd16081fdd55ef997fcba11943b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac80ea89a8a915ac8a1a6eaee9bd3a921" name="ac80ea89a8a915ac8a1a6eaee9bd3a921"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac80ea89a8a915ac8a1a6eaee9bd3a921">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adea97673f55b5d43fb1091e7cb082cae" name="adea97673f55b5d43fb1091e7cb082cae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adea97673f55b5d43fb1091e7cb082cae">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16c1dd81db1a38927c5a39968b2a2047" name="a16c1dd81db1a38927c5a39968b2a2047"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16c1dd81db1a38927c5a39968b2a2047">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac99cf2df0002f1359da1a71821a5d7a6" name="ac99cf2df0002f1359da1a71821a5d7a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac99cf2df0002f1359da1a71821a5d7a6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b393ddcfa07501c936c09103420a327" name="a0b393ddcfa07501c936c09103420a327"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b393ddcfa07501c936c09103420a327">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..7c0e2d12d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1326 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad0d4a168e8e591add8c872d4c2fff64a" name="ad0d4a168e8e591add8c872d4c2fff64a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0d4a168e8e591add8c872d4c2fff64a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbc119c8f230ecbf041ca9d852021a4a" name="afbc119c8f230ecbf041ca9d852021a4a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbc119c8f230ecbf041ca9d852021a4a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96833312f1cb3bd4067a854dc1a85d9c" name="a96833312f1cb3bd4067a854dc1a85d9c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96833312f1cb3bd4067a854dc1a85d9c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e96ba84ab91aea304a2e6ac78eb1fa2" name="a0e96ba84ab91aea304a2e6ac78eb1fa2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e96ba84ab91aea304a2e6ac78eb1fa2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d28eecf8be5cfcbcd71fef6322ef6df" name="a3d28eecf8be5cfcbcd71fef6322ef6df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d28eecf8be5cfcbcd71fef6322ef6df">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae5efcbb0aa7b60c29535ac9c49bbb00a" name="ae5efcbb0aa7b60c29535ac9c49bbb00a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5efcbb0aa7b60c29535ac9c49bbb00a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a73f35746d0a9bed1751b964c07d2c3b6" name="a73f35746d0a9bed1751b964c07d2c3b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73f35746d0a9bed1751b964c07d2c3b6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac028b85ab4d730883ee7b170a11039da" name="ac028b85ab4d730883ee7b170a11039da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac028b85ab4d730883ee7b170a11039da">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81cb91d9b5c6ba53ca66e62ad21265d6" name="a81cb91d9b5c6ba53ca66e62ad21265d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81cb91d9b5c6ba53ca66e62ad21265d6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a006b3b6fd358ff41f9dad5c39f2cb330" name="a006b3b6fd358ff41f9dad5c39f2cb330"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a006b3b6fd358ff41f9dad5c39f2cb330">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html
new file mode 100644
index 000000000..f170f5a9d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html
@@ -0,0 +1,327 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a85ffab9880f2b1221f86a7f63c088096" name="a85ffab9880f2b1221f86a7f63c088096"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85ffab9880f2b1221f86a7f63c088096">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html
new file mode 100644
index 000000000..38ddbe93d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html
@@ -0,0 +1,1686 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a634a690ed27c50d8308bcc0a9bf85acc" name="a634a690ed27c50d8308bcc0a9bf85acc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a634a690ed27c50d8308bcc0a9bf85acc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad38fb7b8c66635da0517434c661ef2e2" name="ad38fb7b8c66635da0517434c661ef2e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad38fb7b8c66635da0517434c661ef2e2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7929e1f87db6d3d72cae3804c1aafef0" name="a7929e1f87db6d3d72cae3804c1aafef0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7929e1f87db6d3d72cae3804c1aafef0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e3cae02bd4631c5b65507b91c500606" name="a0e3cae02bd4631c5b65507b91c500606"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e3cae02bd4631c5b65507b91c500606">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa1d6f03c27aea0bad56e3d38003ffda0" name="aa1d6f03c27aea0bad56e3d38003ffda0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa1d6f03c27aea0bad56e3d38003ffda0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a86ab9a70fb4459793418ac95f6844494" name="a86ab9a70fb4459793418ac95f6844494"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a86ab9a70fb4459793418ac95f6844494">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a873c28f5a06ab6135240b18b23aa17d5" name="a873c28f5a06ab6135240b18b23aa17d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a873c28f5a06ab6135240b18b23aa17d5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac8d5805872473e761a71634add6ae7b8" name="ac8d5805872473e761a71634add6ae7b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8d5805872473e761a71634add6ae7b8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e2d57ad35649098aac904f8acec4d7b" name="a5e2d57ad35649098aac904f8acec4d7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e2d57ad35649098aac904f8acec4d7b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1ce149ce2e815f85f42f779e853b6384" name="a1ce149ce2e815f85f42f779e853b6384"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ce149ce2e815f85f42f779e853b6384">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html
new file mode 100644
index 000000000..07d8d8c35
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac9d49c8094b87daf6025d9195437119e" name="ac9d49c8094b87daf6025d9195437119e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9d49c8094b87daf6025d9195437119e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a86d693b20d7be5e068994e693d970104" name="a86d693b20d7be5e068994e693d970104"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a86d693b20d7be5e068994e693d970104">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60c7d08b38c83f34ba87438440f950e8" name="a60c7d08b38c83f34ba87438440f950e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60c7d08b38c83f34ba87438440f950e8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a261934c69234b20a2f19650fa88e4cd0" name="a261934c69234b20a2f19650fa88e4cd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a261934c69234b20a2f19650fa88e4cd0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2922d0a81b0f1a4427fde265b05427bb" name="a2922d0a81b0f1a4427fde265b05427bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2922d0a81b0f1a4427fde265b05427bb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba27e610941b3c6a9520a14a567022dd" name="aba27e610941b3c6a9520a14a567022dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba27e610941b3c6a9520a14a567022dd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24d7b65f902789f50e1a0fdc3c72da0e" name="a24d7b65f902789f50e1a0fdc3c72da0e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24d7b65f902789f50e1a0fdc3c72da0e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50b88aba0d96371aba370d9894857aff" name="a50b88aba0d96371aba370d9894857aff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50b88aba0d96371aba370d9894857aff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae319b79d484f9cfb10ddf935cf3dce8c" name="ae319b79d484f9cfb10ddf935cf3dce8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae319b79d484f9cfb10ddf935cf3dce8c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d5f1eb18d7aaf74fabc0d63a215062e" name="a0d5f1eb18d7aaf74fabc0d63a215062e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d5f1eb18d7aaf74fabc0d63a215062e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..72e7fda41
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html
@@ -0,0 +1,317 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9e02b82c5db58357a98bc86454c2d7a5" name="a9e02b82c5db58357a98bc86454c2d7a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e02b82c5db58357a98bc86454c2d7a5">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..7b4919278
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1646 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad7474c2dcf75a987f9526e730542ae16" name="ad7474c2dcf75a987f9526e730542ae16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad7474c2dcf75a987f9526e730542ae16">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a76005fdee1a342df4b951b9191967576" name="a76005fdee1a342df4b951b9191967576"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76005fdee1a342df4b951b9191967576">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2e2b47b2c51943f4ff8fabdfb57f270" name="ac2e2b47b2c51943f4ff8fabdfb57f270"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2e2b47b2c51943f4ff8fabdfb57f270">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a799bc0e6eb13b05b038c910b7a650bd8" name="a799bc0e6eb13b05b038c910b7a650bd8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a799bc0e6eb13b05b038c910b7a650bd8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaccb85f565c3b1d5a36dbf413fe05ec4" name="aaccb85f565c3b1d5a36dbf413fe05ec4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaccb85f565c3b1d5a36dbf413fe05ec4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2bfbf20e506af2d9ee18af83b527e5e" name="ab2bfbf20e506af2d9ee18af83b527e5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2bfbf20e506af2d9ee18af83b527e5e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6e9b570bfaac7771adbc13408463be" name="abc6e9b570bfaac7771adbc13408463be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6e9b570bfaac7771adbc13408463be">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab4098b3e8ab8552ec947cbb52de77a0c" name="ab4098b3e8ab8552ec947cbb52de77a0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab4098b3e8ab8552ec947cbb52de77a0c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3530c5b60b4dc3bc1fd5f0af31e32361" name="a3530c5b60b4dc3bc1fd5f0af31e32361"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3530c5b60b4dc3bc1fd5f0af31e32361">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3f8662de26a86a0e1e1612804f49b52" name="ae3f8662de26a86a0e1e1612804f49b52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3f8662de26a86a0e1e1612804f49b52">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..df1e2d55b
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1446 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a73ddb7ffe3131b43c027bed87a21da0c" name="a73ddb7ffe3131b43c027bed87a21da0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73ddb7ffe3131b43c027bed87a21da0c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad386be3805dc66bcebfcc75ae6ce20ce" name="ad386be3805dc66bcebfcc75ae6ce20ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad386be3805dc66bcebfcc75ae6ce20ce">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a95227f34f2ab6c04dcaadd41e1886304" name="a95227f34f2ab6c04dcaadd41e1886304"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95227f34f2ab6c04dcaadd41e1886304">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a494688d7ae0362eb0e5aacbc0ecf19c7" name="a494688d7ae0362eb0e5aacbc0ecf19c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a494688d7ae0362eb0e5aacbc0ecf19c7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a55aad527eb01f16edb9ec021704e4a60" name="a55aad527eb01f16edb9ec021704e4a60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55aad527eb01f16edb9ec021704e4a60">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3451cc31def5c831a428e221f4713d57" name="a3451cc31def5c831a428e221f4713d57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3451cc31def5c831a428e221f4713d57">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f859731d1effb901df0012fbdf35756" name="a1f859731d1effb901df0012fbdf35756"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f859731d1effb901df0012fbdf35756">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6baf7387932e58b5a570e01ea0fb2638" name="a6baf7387932e58b5a570e01ea0fb2638"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6baf7387932e58b5a570e01ea0fb2638">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a99db511954f4e0ced515daf371cda8da" name="a99db511954f4e0ced515daf371cda8da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99db511954f4e0ced515daf371cda8da">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a026a0932fcb72fcf66460486db323e9f" name="a026a0932fcb72fcf66460486db323e9f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a026a0932fcb72fcf66460486db323e9f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html
new file mode 100644
index 000000000..98d366a28
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html
@@ -0,0 +1,332 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0266589d7dcf9f22a9398090ae16abac" name="a0266589d7dcf9f22a9398090ae16abac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0266589d7dcf9f22a9398090ae16abac">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html
new file mode 100644
index 000000000..67e7d5109
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html
@@ -0,0 +1,1726 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a557205856561135a510a45e915bc0714" name="a557205856561135a510a45e915bc0714"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a557205856561135a510a45e915bc0714">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a866fa5e6f036f9befaef0a014527b214" name="a866fa5e6f036f9befaef0a014527b214"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a866fa5e6f036f9befaef0a014527b214">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a874c752c07a36fb38f9476fe78a46735" name="a874c752c07a36fb38f9476fe78a46735"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a874c752c07a36fb38f9476fe78a46735">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab753932a15b63161c3d38c683e2d290d" name="ab753932a15b63161c3d38c683e2d290d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab753932a15b63161c3d38c683e2d290d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a30c5340455dedcd1684d0858738d7c9d" name="a30c5340455dedcd1684d0858738d7c9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30c5340455dedcd1684d0858738d7c9d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5f06095eeec3319c0936d2a99a095054" name="a5f06095eeec3319c0936d2a99a095054"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f06095eeec3319c0936d2a99a095054">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9fea1c8c674df3acb9e76cafe6518fe" name="af9fea1c8c674df3acb9e76cafe6518fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9fea1c8c674df3acb9e76cafe6518fe">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af003bb8591ecd9b6b755807f601cbde6" name="af003bb8591ecd9b6b755807f601cbde6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af003bb8591ecd9b6b755807f601cbde6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91027c49f28b9c30a8fe20c5ede43b4f" name="a91027c49f28b9c30a8fe20c5ede43b4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91027c49f28b9c30a8fe20c5ede43b4f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a62e5730bd70e4665352946a17b3fd18a" name="a62e5730bd70e4665352946a17b3fd18a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a62e5730bd70e4665352946a17b3fd18a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html
new file mode 100644
index 000000000..b66e0eeb5
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html
@@ -0,0 +1,1526 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a15977bf39e5dbde54bc2d1176a9272b9" name="a15977bf39e5dbde54bc2d1176a9272b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a15977bf39e5dbde54bc2d1176a9272b9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c67d23288adf2fc636e9db4c30bfa5e" name="a4c67d23288adf2fc636e9db4c30bfa5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c67d23288adf2fc636e9db4c30bfa5e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a93d410b588239e17ac8e10d7d6e291a0" name="a93d410b588239e17ac8e10d7d6e291a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93d410b588239e17ac8e10d7d6e291a0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5817730d59e634a76e7aafce41aaf26" name="ac5817730d59e634a76e7aafce41aaf26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5817730d59e634a76e7aafce41aaf26">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3be8dde6dfb4fe3ba1a815b319a2925" name="ae3be8dde6dfb4fe3ba1a815b319a2925"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3be8dde6dfb4fe3ba1a815b319a2925">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a004e2b2b3ffa5c4c402b2f56fee16ce6" name="a004e2b2b3ffa5c4c402b2f56fee16ce6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a004e2b2b3ffa5c4c402b2f56fee16ce6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a365c2eb2cec39bb504cdae18934b89c3" name="a365c2eb2cec39bb504cdae18934b89c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a365c2eb2cec39bb504cdae18934b89c3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a30b2c51012735e4ebe919dba89c4d8cd" name="a30b2c51012735e4ebe919dba89c4d8cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30b2c51012735e4ebe919dba89c4d8cd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7e755382f2ce1290c7c3357ecc025b78" name="a7e755382f2ce1290c7c3357ecc025b78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e755382f2ce1290c7c3357ecc025b78">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2c641791d87abe8e19dcee2b3726819" name="ab2c641791d87abe8e19dcee2b3726819"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2c641791d87abe8e19dcee2b3726819">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html
new file mode 100644
index 000000000..cd41d5d6c
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html
@@ -0,0 +1,352 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2e90723fcad83f3054bc6f661de849c1" name="a2e90723fcad83f3054bc6f661de849c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e90723fcad83f3054bc6f661de849c1">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..765938402
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html
@@ -0,0 +1,407 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afa64170f02313b2766c2cc3e25d2f5a9" name="afa64170f02313b2766c2cc3e25d2f5a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afa64170f02313b2766c2cc3e25d2f5a9">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..bc525f8f8
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,2366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a18e29f7653534f3a75e41cf3056d2634" name="a18e29f7653534f3a75e41cf3056d2634"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18e29f7653534f3a75e41cf3056d2634">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0f3c1412b7b4ddb2f3c5262b27f5b46" name="ad0f3c1412b7b4ddb2f3c5262b27f5b46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0f3c1412b7b4ddb2f3c5262b27f5b46">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2e889d0595ab0362613d58e7ff8960b7" name="a2e889d0595ab0362613d58e7ff8960b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e889d0595ab0362613d58e7ff8960b7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f1a8a90b130ae668e3b6b7947c6c4f5" name="a8f1a8a90b130ae668e3b6b7947c6c4f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f1a8a90b130ae668e3b6b7947c6c4f5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea5128dbea65fac0ceb8b42749f74099" name="aea5128dbea65fac0ceb8b42749f74099"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea5128dbea65fac0ceb8b42749f74099">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a9022b14995bf97b8f204dc404e1e8d" name="a6a9022b14995bf97b8f204dc404e1e8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a9022b14995bf97b8f204dc404e1e8d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a184065748160f0c7788467d39b27f5d1" name="a184065748160f0c7788467d39b27f5d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a184065748160f0c7788467d39b27f5d1">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a468a45d6ca5a19247698337fc33f435d" name="a468a45d6ca5a19247698337fc33f435d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a468a45d6ca5a19247698337fc33f435d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03929e871fb455cace7f23efc0d24583" name="a03929e871fb455cace7f23efc0d24583"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03929e871fb455cace7f23efc0d24583">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4172fb110abe23887cdaf0536ef2bcaa" name="a4172fb110abe23887cdaf0536ef2bcaa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4172fb110abe23887cdaf0536ef2bcaa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..87e16a753
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,2166 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a56d820ab8e2e5c1e815ecbe5e906075e" name="a56d820ab8e2e5c1e815ecbe5e906075e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56d820ab8e2e5c1e815ecbe5e906075e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaecc4ec4c793272693a37f0e027dfb93" name="aaecc4ec4c793272693a37f0e027dfb93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaecc4ec4c793272693a37f0e027dfb93">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a843389bf3c054d1a20a6115d47d99cf7" name="a843389bf3c054d1a20a6115d47d99cf7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a843389bf3c054d1a20a6115d47d99cf7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab20ec4fe16b91aae91640b2dd5452ed5" name="ab20ec4fe16b91aae91640b2dd5452ed5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab20ec4fe16b91aae91640b2dd5452ed5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c3bd53d12b516a80478d5a9017a684b" name="a0c3bd53d12b516a80478d5a9017a684b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c3bd53d12b516a80478d5a9017a684b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a012a4e2ee1f52bb243e5388eec3e8a5c" name="a012a4e2ee1f52bb243e5388eec3e8a5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a012a4e2ee1f52bb243e5388eec3e8a5c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a297213250dad534fbb5b3654e854f1a4" name="a297213250dad534fbb5b3654e854f1a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a297213250dad534fbb5b3654e854f1a4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a384fb2660e3cb8a46cf1154d5b45bf2e" name="a384fb2660e3cb8a46cf1154d5b45bf2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a384fb2660e3cb8a46cf1154d5b45bf2e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a90005cd7c4e9aae8498fd1d938983179" name="a90005cd7c4e9aae8498fd1d938983179"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90005cd7c4e9aae8498fd1d938983179">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6014caa4aca0c9e7b583e71900a0a48c" name="a6014caa4aca0c9e7b583e71900a0a48c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6014caa4aca0c9e7b583e71900a0a48c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..9449a6d9f
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,397 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0377d50ef90391567b4819a19bffb34c" name="a0377d50ef90391567b4819a19bffb34c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0377d50ef90391567b4819a19bffb34c">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..9c86d32fb
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,2286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a254195fbabfff3c3ad9ba04db100afae" name="a254195fbabfff3c3ad9ba04db100afae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a254195fbabfff3c3ad9ba04db100afae">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2fdb05c57c2efe83f57ce0ccfe97f861" name="a2fdb05c57c2efe83f57ce0ccfe97f861"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2fdb05c57c2efe83f57ce0ccfe97f861">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af412ff33330b1349cbf7c2a33e58f9a7" name="af412ff33330b1349cbf7c2a33e58f9a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af412ff33330b1349cbf7c2a33e58f9a7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6d5664cd6fa11c72a6de5f652e0aec5d" name="a6d5664cd6fa11c72a6de5f652e0aec5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d5664cd6fa11c72a6de5f652e0aec5d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b9bc69930f735395605b0b91203d7a5" name="a2b9bc69930f735395605b0b91203d7a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b9bc69930f735395605b0b91203d7a5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab03dcc766f91725239b7737cee2b194d" name="ab03dcc766f91725239b7737cee2b194d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab03dcc766f91725239b7737cee2b194d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5f6a21f619bb88465b760c5556fe6f1b" name="a5f6a21f619bb88465b760c5556fe6f1b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f6a21f619bb88465b760c5556fe6f1b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbd549d3981439a47fb0c3811e9eacf4" name="afbd549d3981439a47fb0c3811e9eacf4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbd549d3981439a47fb0c3811e9eacf4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeac8eff5cada3efbb3674213a5f42bc9" name="aeac8eff5cada3efbb3674213a5f42bc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeac8eff5cada3efbb3674213a5f42bc9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac79c384938b7bffef4943090b602ba5e" name="ac79c384938b7bffef4943090b602ba5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac79c384938b7bffef4943090b602ba5e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..1fe7d515d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,2086 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a28a51c35ffb6aac4d6b35c9b87960129" name="a28a51c35ffb6aac4d6b35c9b87960129"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28a51c35ffb6aac4d6b35c9b87960129">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a303830fd0513ecd4eb232556376ad2ff" name="a303830fd0513ecd4eb232556376ad2ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a303830fd0513ecd4eb232556376ad2ff">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af1c9033199b40adc628848b21f60b950" name="af1c9033199b40adc628848b21f60b950"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af1c9033199b40adc628848b21f60b950">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a853a5012db3ca2150440460e10d486ae" name="a853a5012db3ca2150440460e10d486ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a853a5012db3ca2150440460e10d486ae">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5da06cf5b2fca41ca811bae68efd4049" name="a5da06cf5b2fca41ca811bae68efd4049"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5da06cf5b2fca41ca811bae68efd4049">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7b5add21eacc916018bb3b4e0fd96436" name="a7b5add21eacc916018bb3b4e0fd96436"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b5add21eacc916018bb3b4e0fd96436">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9cd29bb0dd406092916c5eb0605aaf0d" name="a9cd29bb0dd406092916c5eb0605aaf0d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9cd29bb0dd406092916c5eb0605aaf0d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad387d04e602a3a29f7b44eaeb1edb9fa" name="ad387d04e602a3a29f7b44eaeb1edb9fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad387d04e602a3a29f7b44eaeb1edb9fa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33f05c8d5a2149e88f0c5a0a446357c2" name="a33f05c8d5a2149e88f0c5a0a446357c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33f05c8d5a2149e88f0c5a0a446357c2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abcba604787cbdb187f05ab27324d67f7" name="abcba604787cbdb187f05ab27324d67f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcba604787cbdb187f05ab27324d67f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..f5b86f9fc
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html
@@ -0,0 +1,412 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aeed29f5cd2c5bacfd4ed37b2381c128b" name="aeed29f5cd2c5bacfd4ed37b2381c128b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeed29f5cd2c5bacfd4ed37b2381c128b">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..67066a1cc
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,2406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="abacbb190c3b418788aa37c065b93e703" name="abacbb190c3b418788aa37c065b93e703"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abacbb190c3b418788aa37c065b93e703">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6f94595430b5a0e8c1597b72f210095f" name="a6f94595430b5a0e8c1597b72f210095f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6f94595430b5a0e8c1597b72f210095f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91f984a560c40dcae1abbb2391fa2fda" name="a91f984a560c40dcae1abbb2391fa2fda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91f984a560c40dcae1abbb2391fa2fda">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac6a60f786cbc800c9b675f386c1014ab" name="ac6a60f786cbc800c9b675f386c1014ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6a60f786cbc800c9b675f386c1014ab">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c158805e4537d8825326a3ecddf9c9c" name="a0c158805e4537d8825326a3ecddf9c9c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c158805e4537d8825326a3ecddf9c9c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04d2d84d9856aa9de1f36e1813d4c172" name="a04d2d84d9856aa9de1f36e1813d4c172"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04d2d84d9856aa9de1f36e1813d4c172">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad178df90f04b6ef9c3c907c699042d8e" name="ad178df90f04b6ef9c3c907c699042d8e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad178df90f04b6ef9c3c907c699042d8e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a05a2693fb5198654434e63ef4a07981e" name="a05a2693fb5198654434e63ef4a07981e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05a2693fb5198654434e63ef4a07981e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a260b636a6d13f307a286c4b24b47a1cc" name="a260b636a6d13f307a286c4b24b47a1cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a260b636a6d13f307a286c4b24b47a1cc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d5d4738a27dacbbecc699b0297a6331" name="a0d5d4738a27dacbbecc699b0297a6331"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d5d4738a27dacbbecc699b0297a6331">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..7db75f89c
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,2206 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae73b050da138bd46bcb186f630a45f1e" name="ae73b050da138bd46bcb186f630a45f1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae73b050da138bd46bcb186f630a45f1e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f05baa1d7dca3d78338fcd70e11487c" name="a0f05baa1d7dca3d78338fcd70e11487c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f05baa1d7dca3d78338fcd70e11487c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9c2f7f4369735aa317a88c819b378f43" name="a9c2f7f4369735aa317a88c819b378f43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c2f7f4369735aa317a88c819b378f43">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54694cb47dc38390f1b301aa039cb31d" name="a54694cb47dc38390f1b301aa039cb31d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54694cb47dc38390f1b301aa039cb31d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac3a5c0e1adaae87917f2645e6a2afa46" name="ac3a5c0e1adaae87917f2645e6a2afa46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3a5c0e1adaae87917f2645e6a2afa46">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed82b2485ec72bfc56b2fae686d062f0" name="aed82b2485ec72bfc56b2fae686d062f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed82b2485ec72bfc56b2fae686d062f0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6dfe39e1df2bced46b2e0991e3435be9" name="a6dfe39e1df2bced46b2e0991e3435be9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6dfe39e1df2bced46b2e0991e3435be9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c2fb3ecac9e0bd458fbd1023025d5d5" name="a3c2fb3ecac9e0bd458fbd1023025d5d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c2fb3ecac9e0bd458fbd1023025d5d5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afb504ea4eac563c64b42343e986a7847" name="afb504ea4eac563c64b42343e986a7847"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb504ea4eac563c64b42343e986a7847">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c5b8de0acb5391f4dc4172ce5ca094e" name="a6c5b8de0acb5391f4dc4172ce5ca094e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c5b8de0acb5391f4dc4172ce5ca094e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..d745457c5
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html
@@ -0,0 +1,307 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="acc9cd7c72b1624ec0df8d9f4edbde2cb" name="acc9cd7c72b1624ec0df8d9f4edbde2cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc9cd7c72b1624ec0df8d9f4edbde2cb">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..8fb8a4367
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1566 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1296e33305fd2cde7e9e34e18e7e7905" name="a1296e33305fd2cde7e9e34e18e7e7905"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1296e33305fd2cde7e9e34e18e7e7905">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a49dd26094cead9644cbc35c29bb5bb21" name="a49dd26094cead9644cbc35c29bb5bb21"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49dd26094cead9644cbc35c29bb5bb21">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a440eee4271eb5f61b204de4ec66054d2" name="a440eee4271eb5f61b204de4ec66054d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a440eee4271eb5f61b204de4ec66054d2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9137cfc1d9e0421323b78bf589c34fc" name="af9137cfc1d9e0421323b78bf589c34fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9137cfc1d9e0421323b78bf589c34fc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a745a7f66bb6899e5071ee55e90f23368" name="a745a7f66bb6899e5071ee55e90f23368"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a745a7f66bb6899e5071ee55e90f23368">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae079dac6052edf65f8a39b4fd9de7c70" name="ae079dac6052edf65f8a39b4fd9de7c70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae079dac6052edf65f8a39b4fd9de7c70">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a35f6a98383bf1ed951023b1fe432ed4c" name="a35f6a98383bf1ed951023b1fe432ed4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35f6a98383bf1ed951023b1fe432ed4c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a025f08f037ddf498278c429e09fd4d4a" name="a025f08f037ddf498278c429e09fd4d4a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a025f08f037ddf498278c429e09fd4d4a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a188fb685cd69453ab94f992332f523a9" name="a188fb685cd69453ab94f992332f523a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a188fb685cd69453ab94f992332f523a9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98043b075d1f73a69bd0b19b1a24283e" name="a98043b075d1f73a69bd0b19b1a24283e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98043b075d1f73a69bd0b19b1a24283e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..d1127777d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a709a4f70083ce173ce40562aa52ad3c8" name="a709a4f70083ce173ce40562aa52ad3c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a709a4f70083ce173ce40562aa52ad3c8">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abf79428f3dcf0b60bcff9074d587aeaf" name="abf79428f3dcf0b60bcff9074d587aeaf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abf79428f3dcf0b60bcff9074d587aeaf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ecc1609ac62272a2c0f5a1e1cddbed5" name="a8ecc1609ac62272a2c0f5a1e1cddbed5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ecc1609ac62272a2c0f5a1e1cddbed5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d2430849bd51fc5ad283d1a300cabba" name="a8d2430849bd51fc5ad283d1a300cabba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d2430849bd51fc5ad283d1a300cabba">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a377694b1c0ce71b8d0c56077a904f7d7" name="a377694b1c0ce71b8d0c56077a904f7d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a377694b1c0ce71b8d0c56077a904f7d7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae5465342deb9e71765693c8929b5f475" name="ae5465342deb9e71765693c8929b5f475"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5465342deb9e71765693c8929b5f475">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1d9234d02b6be2ab2bdc5f4a8dc5701" name="ad1d9234d02b6be2ab2bdc5f4a8dc5701"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1d9234d02b6be2ab2bdc5f4a8dc5701">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8e910b2c682642ac61185d1b155c5eb" name="ab8e910b2c682642ac61185d1b155c5eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8e910b2c682642ac61185d1b155c5eb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acde8c89a937e31cb98aa026b261cfe23" name="acde8c89a937e31cb98aa026b261cfe23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acde8c89a937e31cb98aa026b261cfe23">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf1cf7a1807aab50d346ef163c534c1d" name="adf1cf7a1807aab50d346ef163c534c1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf1cf7a1807aab50d346ef163c534c1d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..9b2de2249
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,297 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af25017968213662e5c8c0ab9f5fa7e9a" name="af25017968213662e5c8c0ab9f5fa7e9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af25017968213662e5c8c0ab9f5fa7e9a">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..21b41a03c
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a99c23e8020a9ae93a0d0d429c6940707" name="a99c23e8020a9ae93a0d0d429c6940707"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99c23e8020a9ae93a0d0d429c6940707">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a920aba769ec4eba77d74c4cce2f0aa5a" name="a920aba769ec4eba77d74c4cce2f0aa5a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a920aba769ec4eba77d74c4cce2f0aa5a">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3490c2bf081c92095011640fb03961b5" name="a3490c2bf081c92095011640fb03961b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3490c2bf081c92095011640fb03961b5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a01c0225eea92b7b0403572335b1abc61" name="a01c0225eea92b7b0403572335b1abc61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01c0225eea92b7b0403572335b1abc61">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad39229402610f8c9069ea8a7e1c6a0ab" name="ad39229402610f8c9069ea8a7e1c6a0ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad39229402610f8c9069ea8a7e1c6a0ab">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77fbe03e0ff353a2ebe490cf97f0c353" name="a77fbe03e0ff353a2ebe490cf97f0c353"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77fbe03e0ff353a2ebe490cf97f0c353">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4074249c4919e43d534eb0904fa4693b" name="a4074249c4919e43d534eb0904fa4693b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4074249c4919e43d534eb0904fa4693b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab903a35e3bd981f1436d46179b87ecb9" name="ab903a35e3bd981f1436d46179b87ecb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab903a35e3bd981f1436d46179b87ecb9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a73eba662cabf7a9761d2cf5d195206f4" name="a73eba662cabf7a9761d2cf5d195206f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73eba662cabf7a9761d2cf5d195206f4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8c1bfed5b951970a40f4028998d21fd" name="ae8c1bfed5b951970a40f4028998d21fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8c1bfed5b951970a40f4028998d21fd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..e1257c86f
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aacedf2a727684a316ae18abf5670f8e8" name="aacedf2a727684a316ae18abf5670f8e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacedf2a727684a316ae18abf5670f8e8">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9354545fca8047a3359cc39269e4531f" name="a9354545fca8047a3359cc39269e4531f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9354545fca8047a3359cc39269e4531f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ae09f234561f1e415ef920bbf6eba22" name="a8ae09f234561f1e415ef920bbf6eba22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ae09f234561f1e415ef920bbf6eba22">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af13fd6356fec61b096f429f666c4d50a" name="af13fd6356fec61b096f429f666c4d50a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af13fd6356fec61b096f429f666c4d50a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aebd1c348edc2accec933a20abbf4ff2a" name="aebd1c348edc2accec933a20abbf4ff2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aebd1c348edc2accec933a20abbf4ff2a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f470748a75cfc59c5c7a0cb577289f2" name="a4f470748a75cfc59c5c7a0cb577289f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f470748a75cfc59c5c7a0cb577289f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ff2b2e15a95a8d176f99a8eebddf45d" name="a5ff2b2e15a95a8d176f99a8eebddf45d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ff2b2e15a95a8d176f99a8eebddf45d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a023ead14754421961a4b473a3b1bb81c" name="a023ead14754421961a4b473a3b1bb81c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a023ead14754421961a4b473a3b1bb81c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f1c2f2aebc7a13ddade48d2a2f0301c" name="a3f1c2f2aebc7a13ddade48d2a2f0301c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f1c2f2aebc7a13ddade48d2a2f0301c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af95c4def12e4117e2d7bdc89b8fb0506" name="af95c4def12e4117e2d7bdc89b8fb0506"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af95c4def12e4117e2d7bdc89b8fb0506">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..6c9ec43e9
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html
@@ -0,0 +1,312 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a969bc368ad46c57ab47feac737df5001" name="a969bc368ad46c57ab47feac737df5001"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a969bc368ad46c57ab47feac737df5001">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..f8a136945
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a158fb407fba50cda959d3a60cbc01d91" name="a158fb407fba50cda959d3a60cbc01d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a158fb407fba50cda959d3a60cbc01d91">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0344106c25fea0c6358540ff4bd536f8" name="a0344106c25fea0c6358540ff4bd536f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0344106c25fea0c6358540ff4bd536f8">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11b62696a1fcc6753a62e4b7b78987a9" name="a11b62696a1fcc6753a62e4b7b78987a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11b62696a1fcc6753a62e4b7b78987a9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af15cb1c5b6cddd5d3678e3cee0a6cefe" name="af15cb1c5b6cddd5d3678e3cee0a6cefe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af15cb1c5b6cddd5d3678e3cee0a6cefe">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a933ef9f4d58e4ecad71988cd6f5ad537" name="a933ef9f4d58e4ecad71988cd6f5ad537"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a933ef9f4d58e4ecad71988cd6f5ad537">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a22292529eb85249ba3bec7be758eebee" name="a22292529eb85249ba3bec7be758eebee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a22292529eb85249ba3bec7be758eebee">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea22f0f456a89d61d1a066e7b363f59a" name="aea22f0f456a89d61d1a066e7b363f59a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea22f0f456a89d61d1a066e7b363f59a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af8966c1a682b91a466caa300f057d2cd" name="af8966c1a682b91a466caa300f057d2cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8966c1a682b91a466caa300f057d2cd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96ca79bd9787eab9dfe57a09f61590db" name="a96ca79bd9787eab9dfe57a09f61590db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96ca79bd9787eab9dfe57a09f61590db">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c1e5c2776f4209766c769243bf57894" name="a6c1e5c2776f4209766c769243bf57894"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c1e5c2776f4209766c769243bf57894">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..67a49dc28
--- /dev/null
+++ b/gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ade29dc18e73de993e107177d9568fbdf" name="ade29dc18e73de993e107177d9568fbdf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade29dc18e73de993e107177d9568fbdf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a913d8fc72158bf301f064c0e60657a18" name="a913d8fc72158bf301f064c0e60657a18"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a913d8fc72158bf301f064c0e60657a18">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e895892d276833086475c0e7f1b7927" name="a0e895892d276833086475c0e7f1b7927"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e895892d276833086475c0e7f1b7927">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7cbe79ba3521a4bbd4c14a74fd6adff" name="ac7cbe79ba3521a4bbd4c14a74fd6adff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7cbe79ba3521a4bbd4c14a74fd6adff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac58c7e73b10a41dc9f49d4e477b20fb2" name="ac58c7e73b10a41dc9f49d4e477b20fb2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac58c7e73b10a41dc9f49d4e477b20fb2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac0e36eb9e678f52e0561366229ecc4bf" name="ac0e36eb9e678f52e0561366229ecc4bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0e36eb9e678f52e0561366229ecc4bf">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0cb98e4afaf555388869ebe3242fc7d0" name="a0cb98e4afaf555388869ebe3242fc7d0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0cb98e4afaf555388869ebe3242fc7d0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98fc1738f166a55809b2648796416db0" name="a98fc1738f166a55809b2648796416db0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98fc1738f166a55809b2648796416db0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad7d432c589db7e87949a9d0ca5533b54" name="ad7d432c589db7e87949a9d0ca5533b54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad7d432c589db7e87949a9d0ca5533b54">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58cc18641eaeee8eb587cb2a3726e85b" name="a58cc18641eaeee8eb587cb2a3726e85b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58cc18641eaeee8eb587cb2a3726e85b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html
new file mode 100644
index 000000000..bb0b6b5f0
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html
@@ -0,0 +1,262 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="acb5592b9d0b5b9344302f69c0f1be10b" name="acb5592b9d0b5b9344302f69c0f1be10b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb5592b9d0b5b9344302f69c0f1be10b">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..5ce603f9b
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html
@@ -0,0 +1,313 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a10025996061290114d6060505057ce7b" name="a10025996061290114d6060505057ce7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10025996061290114d6060505057ce7b">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..15fc8ea0f
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1566 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a79b96d6a0be54ea86ebd1cadeedd2068" name="a79b96d6a0be54ea86ebd1cadeedd2068"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79b96d6a0be54ea86ebd1cadeedd2068">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a66e6adb0beac238f39d443dffa3c0161" name="a66e6adb0beac238f39d443dffa3c0161"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a66e6adb0beac238f39d443dffa3c0161">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a173df29f55015b4b4d8c9cdda6986823" name="a173df29f55015b4b4d8c9cdda6986823"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a173df29f55015b4b4d8c9cdda6986823">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a48f4d0c7f7758b5149c9d96abb61354d" name="a48f4d0c7f7758b5149c9d96abb61354d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48f4d0c7f7758b5149c9d96abb61354d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0dadc1a7dd7578c22f5d239047bf7794" name="a0dadc1a7dd7578c22f5d239047bf7794"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0dadc1a7dd7578c22f5d239047bf7794">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94192c3fad25107220bf7cf718abdfed" name="a94192c3fad25107220bf7cf718abdfed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94192c3fad25107220bf7cf718abdfed">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5db669968a840fd6cd68feb612d416de" name="a5db669968a840fd6cd68feb612d416de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5db669968a840fd6cd68feb612d416de">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abd72df618308d6a739f91188cc5a1e91" name="abd72df618308d6a739f91188cc5a1e91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abd72df618308d6a739f91188cc5a1e91">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f2d784a0f6604d457a71d725eca24ef" name="a7f2d784a0f6604d457a71d725eca24ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f2d784a0f6604d457a71d725eca24ef">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affa3d280e56d69dbe39ea3bda0bcba6e" name="affa3d280e56d69dbe39ea3bda0bcba6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affa3d280e56d69dbe39ea3bda0bcba6e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..ae5c22069
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad4cbc31bac8a8d965f3549045cd85999" name="ad4cbc31bac8a8d965f3549045cd85999"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4cbc31bac8a8d965f3549045cd85999">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a30ae1e9efc40a515dca89e5e3ef46565" name="a30ae1e9efc40a515dca89e5e3ef46565"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30ae1e9efc40a515dca89e5e3ef46565">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd57c62802e581a57d2e9daa52b09e4b" name="afd57c62802e581a57d2e9daa52b09e4b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd57c62802e581a57d2e9daa52b09e4b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7412bb61fd123be30b935508b1839d66" name="a7412bb61fd123be30b935508b1839d66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7412bb61fd123be30b935508b1839d66">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58f3e7232aae5283c177ee7305d1bede" name="a58f3e7232aae5283c177ee7305d1bede"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58f3e7232aae5283c177ee7305d1bede">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12192a01089a95a93f5a384e9faaa312" name="a12192a01089a95a93f5a384e9faaa312"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12192a01089a95a93f5a384e9faaa312">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69682ffbf2a367fa7e6d25edd9cf1218" name="a69682ffbf2a367fa7e6d25edd9cf1218"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69682ffbf2a367fa7e6d25edd9cf1218">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a856011203b19087ab6f1eebb7a8f18dc" name="a856011203b19087ab6f1eebb7a8f18dc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a856011203b19087ab6f1eebb7a8f18dc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23c47f9e7c8f8a011e9a2d3778e2a65b" name="a23c47f9e7c8f8a011e9a2d3778e2a65b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23c47f9e7c8f8a011e9a2d3778e2a65b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed68dca4d92a97e556d3073cab88a18f" name="aed68dca4d92a97e556d3073cab88a18f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed68dca4d92a97e556d3073cab88a18f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..7f9294ffb
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,303 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a42435ea3b63f42213a2c24d4aadc84f6" name="a42435ea3b63f42213a2c24d4aadc84f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42435ea3b63f42213a2c24d4aadc84f6">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..09d9071cb
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1486 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4987b540b661f1caa132231f415c45a9" name="a4987b540b661f1caa132231f415c45a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4987b540b661f1caa132231f415c45a9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abeb949f70e925c2f8011d973d75645fc" name="abeb949f70e925c2f8011d973d75645fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abeb949f70e925c2f8011d973d75645fc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7d6e1a2bc0d32d0273140358b977b4e" name="af7d6e1a2bc0d32d0273140358b977b4e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7d6e1a2bc0d32d0273140358b977b4e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ab47f5d78d1d005e9f8784e812589b0" name="a9ab47f5d78d1d005e9f8784e812589b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ab47f5d78d1d005e9f8784e812589b0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6854bab8c0d96882e4f9f980880531bc" name="a6854bab8c0d96882e4f9f980880531bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6854bab8c0d96882e4f9f980880531bc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a240624068305d411db3cdece269f6a2f" name="a240624068305d411db3cdece269f6a2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240624068305d411db3cdece269f6a2f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed55f18c1fecec6d6de78577918449a0" name="aed55f18c1fecec6d6de78577918449a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed55f18c1fecec6d6de78577918449a0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b2d60d4092d3af5e898446d1ffc3282" name="a5b2d60d4092d3af5e898446d1ffc3282"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b2d60d4092d3af5e898446d1ffc3282">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac0c8d3772833c3ef461a44cabc9cda70" name="ac0c8d3772833c3ef461a44cabc9cda70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0c8d3772833c3ef461a44cabc9cda70">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5d3923934afd4c41777f94dd36798bb8" name="a5d3923934afd4c41777f94dd36798bb8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5d3923934afd4c41777f94dd36798bb8">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..0057c1f74
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a08d8db556761e8e68193b2cc8a32a1cc" name="a08d8db556761e8e68193b2cc8a32a1cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a08d8db556761e8e68193b2cc8a32a1cc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9a5abe82611fbf748e346094a7b24b2" name="ac9a5abe82611fbf748e346094a7b24b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9a5abe82611fbf748e346094a7b24b2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aabf9c6be454bf78678fc82ba87ed2b56" name="aabf9c6be454bf78678fc82ba87ed2b56"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aabf9c6be454bf78678fc82ba87ed2b56">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef2fbd1a40bded32e9118172ea588823" name="aef2fbd1a40bded32e9118172ea588823"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef2fbd1a40bded32e9118172ea588823">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7b80756a8fab65071212121bf535f2d3" name="a7b80756a8fab65071212121bf535f2d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b80756a8fab65071212121bf535f2d3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="add33ba4596f143bb11a12a3508c0fb32" name="add33ba4596f143bb11a12a3508c0fb32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#add33ba4596f143bb11a12a3508c0fb32">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af129bcfb9d742a9a531ee4c3324bdb9a" name="af129bcfb9d742a9a531ee4c3324bdb9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af129bcfb9d742a9a531ee4c3324bdb9a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a90ffe039f52ddd5cf5e1108e7116b612" name="a90ffe039f52ddd5cf5e1108e7116b612"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90ffe039f52ddd5cf5e1108e7116b612">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a84246813bd816d0adfa4751b327dbfa6" name="a84246813bd816d0adfa4751b327dbfa6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84246813bd816d0adfa4751b327dbfa6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad94f32bbc65499df3140ee3a12f12dbc" name="ad94f32bbc65499df3140ee3a12f12dbc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad94f32bbc65499df3140ee3a12f12dbc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..302e84a0f
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html
@@ -0,0 +1,318 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kMaxVecsPerThread = 8;                  \</div>
+<div class="line">    <span class="keyword">constexpr</span> <span class="keyword">auto</span> kThreadGroupSize = <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>;                               \</div>
+<div class="line">    <span class="keywordflow">return</span> __VA_ARGS__();                                                      \</div>
+<div class="line">  }()</div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a74ae14449034e73352a950be7faee8cd" name="a74ae14449034e73352a950be7faee8cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74ae14449034e73352a950be7faee8cd">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..eeb4b9712
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1606 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae73620aca9ffc6e0cfd3b9cb594bdaf0" name="ae73620aca9ffc6e0cfd3b9cb594bdaf0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae73620aca9ffc6e0cfd3b9cb594bdaf0">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8275b2b19c2713679e0404cfc50cfc4f" name="a8275b2b19c2713679e0404cfc50cfc4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8275b2b19c2713679e0404cfc50cfc4f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d36afee5962e7c2e645ed580a9293d7" name="a7d36afee5962e7c2e645ed580a9293d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d36afee5962e7c2e645ed580a9293d7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae9fc0a17625be30b2c3e94857e45e660" name="ae9fc0a17625be30b2c3e94857e45e660"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae9fc0a17625be30b2c3e94857e45e660">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a526a3a91d4d22f8f4b8b25d52ea7539c" name="a526a3a91d4d22f8f4b8b25d52ea7539c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a526a3a91d4d22f8f4b8b25d52ea7539c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45a1b05c68acf892f30f7ee837bb5aac" name="a45a1b05c68acf892f30f7ee837bb5aac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45a1b05c68acf892f30f7ee837bb5aac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaea9d9291155e312439e673a39970cc3" name="aaea9d9291155e312439e673a39970cc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaea9d9291155e312439e673a39970cc3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7273b842f26b655461dfe827e4bc669" name="ac7273b842f26b655461dfe827e4bc669"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7273b842f26b655461dfe827e4bc669">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6940aede0efad4a0cca521cfdcec433b" name="a6940aede0efad4a0cca521cfdcec433b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6940aede0efad4a0cca521cfdcec433b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2e2219247d875dadcb571833d8282ca4" name="a2e2219247d875dadcb571833d8282ca4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e2219247d875dadcb571833d8282ca4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..afa91175d
--- /dev/null
+++ b/gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2af51d716ed8d2b1a926e0f237b76f71" name="a2af51d716ed8d2b1a926e0f237b76f71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2af51d716ed8d2b1a926e0f237b76f71">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad63ba5d695275d09b7f72a2e3fc6c124" name="ad63ba5d695275d09b7f72a2e3fc6c124"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad63ba5d695275d09b7f72a2e3fc6c124">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aceb4cd33e669bb98a7d191fb45221a80" name="aceb4cd33e669bb98a7d191fb45221a80"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aceb4cd33e669bb98a7d191fb45221a80">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a861cd39a27db6459d3d308938724a605" name="a861cd39a27db6459d3d308938724a605"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a861cd39a27db6459d3d308938724a605">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a908dadafc7b1c847ac07f402090b784c" name="a908dadafc7b1c847ac07f402090b784c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a908dadafc7b1c847ac07f402090b784c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a29dc67ef45e2c108c079066771ca4b15" name="a29dc67ef45e2c108c079066771ca4b15"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29dc67ef45e2c108c079066771ca4b15">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2da0fed4926ad614ee0554b8f818854d" name="a2da0fed4926ad614ee0554b8f818854d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2da0fed4926ad614ee0554b8f818854d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6562c95418573901d3dd3e933fdb1798" name="a6562c95418573901d3dd3e933fdb1798"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6562c95418573901d3dd3e933fdb1798">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf897a86ff3ef489f638c5d6cd604fb7" name="adf897a86ff3ef489f638c5d6cd604fb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf897a86ff3ef489f638c5d6cd604fb7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6ea5271fc0e7434bb952837a4ec992c" name="af6ea5271fc0e7434bb952837a4ec992c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6ea5271fc0e7434bb952837a4ec992c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__cpu_8cpp.html b/gen__embedding__backward__sgd__split__cpu_8cpp.html
new file mode 100644
index 000000000..3fca536c0
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__cpu_8cpp.html
@@ -0,0 +1,232 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;map&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;fbgemm/Types.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespaceinternal" id="r_namespaceinternal"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespaceinternal.html">internal</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9d914bb02aed97803fcc9237f00403fa" name="a9d914bb02aed97803fcc9237f00403fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d914bb02aed97803fcc9237f00403fa">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_sgd_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html b/gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html
new file mode 100644
index 000000000..fcafcb7c1
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html
@@ -0,0 +1,272 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad2d75e84d796d6d8fae77c19e7a8af3b" name="ad2d75e84d796d6d8fae77c19e7a8af3b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad2d75e84d796d6d8fae77c19e7a8af3b">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html b/gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..e117ecd50
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html
@@ -0,0 +1,1286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afd015e1d0e79f14de8ed5bdf578c81df" name="afd015e1d0e79f14de8ed5bdf578c81df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd015e1d0e79f14de8ed5bdf578c81df">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc14cf31cc4a8f906bc7f25d594fafc1" name="abc14cf31cc4a8f906bc7f25d594fafc1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc14cf31cc4a8f906bc7f25d594fafc1">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6d8a94d5bd394aab6b93267e3f0f2673" name="a6d8a94d5bd394aab6b93267e3f0f2673"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d8a94d5bd394aab6b93267e3f0f2673">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2503c0d4c5e56ba15bfb7df317dda0ac" name="a2503c0d4c5e56ba15bfb7df317dda0ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2503c0d4c5e56ba15bfb7df317dda0ac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad54cfe3bdecfc6441753596772402ca3" name="ad54cfe3bdecfc6441753596772402ca3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad54cfe3bdecfc6441753596772402ca3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0d4736eed64c8bbf3a20923bb9c29f9" name="af0d4736eed64c8bbf3a20923bb9c29f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0d4736eed64c8bbf3a20923bb9c29f9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0720d53a4c9644a99b5cbe9e245dc3e9" name="a0720d53a4c9644a99b5cbe9e245dc3e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0720d53a4c9644a99b5cbe9e245dc3e9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c819af30fed201203e68ceda2eca173" name="a0c819af30fed201203e68ceda2eca173"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c819af30fed201203e68ceda2eca173">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8bdc52848ae2ccea30492b4414adb034" name="a8bdc52848ae2ccea30492b4414adb034"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8bdc52848ae2ccea30492b4414adb034">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a42f11861e28ce77032f8047e83ea11" name="a9a42f11861e28ce77032f8047e83ea11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a42f11861e28ce77032f8047e83ea11">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html b/gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..2fd79adac
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html
@@ -0,0 +1,1086 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a63e7a313c891f643c307bd05041a5b54" name="a63e7a313c891f643c307bd05041a5b54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a63e7a313c891f643c307bd05041a5b54">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaddcf08714b3cc33953d207c24e0be7f" name="aaddcf08714b3cc33953d207c24e0be7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaddcf08714b3cc33953d207c24e0be7f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d850e642c167b5e60a73c88a47f7f16" name="a1d850e642c167b5e60a73c88a47f7f16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d850e642c167b5e60a73c88a47f7f16">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9d44bcd45f9e02788aecbf226dbeb110" name="a9d44bcd45f9e02788aecbf226dbeb110"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d44bcd45f9e02788aecbf226dbeb110">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64b45cd53c38d53cedf6f4d66afd11f5" name="a64b45cd53c38d53cedf6f4d66afd11f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64b45cd53c38d53cedf6f4d66afd11f5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6bb05de78f7804f75e027524d191e5da" name="a6bb05de78f7804f75e027524d191e5da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bb05de78f7804f75e027524d191e5da">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0574dfcf396c58dc8863401720dacb5" name="ae0574dfcf396c58dc8863401720dacb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0574dfcf396c58dc8863401720dacb5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64537991cc98a52cb2bd884dbcc7bebc" name="a64537991cc98a52cb2bd884dbcc7bebc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64537991cc98a52cb2bd884dbcc7bebc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a160f8f69b25890024d8d91dd87bbba82" name="a160f8f69b25890024d8d91dd87bbba82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a160f8f69b25890024d8d91dd87bbba82">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5917f6544b279539f51ba07a7d4d5ca5" name="a5917f6544b279539f51ba07a7d4d5ca5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5917f6544b279539f51ba07a7d4d5ca5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html b/gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html
new file mode 100644
index 000000000..305babdf1
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html
@@ -0,0 +1,262 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2260d3e46945437faae7a44fe015bf7c" name="a2260d3e46945437faae7a44fe015bf7c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2260d3e46945437faae7a44fe015bf7c">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html b/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html
new file mode 100644
index 000000000..16eb98897
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html
@@ -0,0 +1,1206 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a320b7cb4717a06125d1e05149e7414a9" name="a320b7cb4717a06125d1e05149e7414a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a320b7cb4717a06125d1e05149e7414a9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6736b927e85af06f2a8f64b95a527f35" name="a6736b927e85af06f2a8f64b95a527f35"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6736b927e85af06f2a8f64b95a527f35">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ba8347d410dea8ce7952d7e5674a053" name="a5ba8347d410dea8ce7952d7e5674a053"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ba8347d410dea8ce7952d7e5674a053">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5d38c3b8f12784860c0d0219684a22f2" name="a5d38c3b8f12784860c0d0219684a22f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5d38c3b8f12784860c0d0219684a22f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aedc7a4a2ea94e6294c49780531ce8562" name="aedc7a4a2ea94e6294c49780531ce8562"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aedc7a4a2ea94e6294c49780531ce8562">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7cfbc77648395dd0be255b6c2a04797e" name="a7cfbc77648395dd0be255b6c2a04797e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cfbc77648395dd0be255b6c2a04797e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abff5c0eb0f3d6a4dda6f6a5f51450dad" name="abff5c0eb0f3d6a4dda6f6a5f51450dad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abff5c0eb0f3d6a4dda6f6a5f51450dad">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e775aca46c2cf5dfe37c97a0c320eef" name="a4e775aca46c2cf5dfe37c97a0c320eef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e775aca46c2cf5dfe37c97a0c320eef">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aebc5dd156def696b75e9590fdd7e44f4" name="aebc5dd156def696b75e9590fdd7e44f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aebc5dd156def696b75e9590fdd7e44f4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adae5d509289eae4626e7cc6eda18efbb" name="adae5d509289eae4626e7cc6eda18efbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adae5d509289eae4626e7cc6eda18efbb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html b/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html
new file mode 100644
index 000000000..a96a1a2de
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html
@@ -0,0 +1,1006 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aec3f0f560b496881e95413f483dc0c32" name="aec3f0f560b496881e95413f483dc0c32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec3f0f560b496881e95413f483dc0c32">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1bac18bde859aad7fbfb3871a0bacf37" name="a1bac18bde859aad7fbfb3871a0bacf37"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1bac18bde859aad7fbfb3871a0bacf37">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a8f9dbd0e03e001dc43109c9b58edca" name="a0a8f9dbd0e03e001dc43109c9b58edca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a8f9dbd0e03e001dc43109c9b58edca">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a34cc24631cc7850723f21d44ac9bb3" name="a9a34cc24631cc7850723f21d44ac9bb3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a34cc24631cc7850723f21d44ac9bb3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab891f89faefe34faf30508569d63250" name="aab891f89faefe34faf30508569d63250"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab891f89faefe34faf30508569d63250">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab49ef540e21a06c9366b7a4b1b643855" name="ab49ef540e21a06c9366b7a4b1b643855"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab49ef540e21a06c9366b7a4b1b643855">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7f8ec16263de0ec18ba44144f3f6409" name="aa7f8ec16263de0ec18ba44144f3f6409"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7f8ec16263de0ec18ba44144f3f6409">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af4e0c8de103d5b95b3930d72723dedde" name="af4e0c8de103d5b95b3930d72723dedde"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4e0c8de103d5b95b3930d72723dedde">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ada25cfa4c47b6ce54c00b842e414e5cb" name="ada25cfa4c47b6ce54c00b842e414e5cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada25cfa4c47b6ce54c00b842e414e5cb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad491955b35ee3fb84ecdbc35426aa9c6" name="ad491955b35ee3fb84ecdbc35426aa9c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad491955b35ee3fb84ecdbc35426aa9c6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html b/gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html
new file mode 100644
index 000000000..3f9c2a5a1
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html
@@ -0,0 +1,287 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a216acb29a8d546146f5593b5abd7eaa1" name="a216acb29a8d546146f5593b5abd7eaa1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a216acb29a8d546146f5593b5abd7eaa1">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html b/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html
new file mode 100644
index 000000000..ebae6f0f5
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html
@@ -0,0 +1,1366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aaa0317297f080a5b537f22049d8ecbbe" name="aaa0317297f080a5b537f22049d8ecbbe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa0317297f080a5b537f22049d8ecbbe">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9c866240eb5eb8df0da4e1ee803e04cf" name="a9c866240eb5eb8df0da4e1ee803e04cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c866240eb5eb8df0da4e1ee803e04cf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6050e98a82b09a3401ba1bcefb21abdc" name="a6050e98a82b09a3401ba1bcefb21abdc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6050e98a82b09a3401ba1bcefb21abdc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98e60157f32325eabb7ce026f700e32f" name="a98e60157f32325eabb7ce026f700e32f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98e60157f32325eabb7ce026f700e32f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81afc9990a7d79a97ddf8ee0bb84f62b" name="a81afc9990a7d79a97ddf8ee0bb84f62b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81afc9990a7d79a97ddf8ee0bb84f62b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a027461b35f0b0e8c2245ef80575fe911" name="a027461b35f0b0e8c2245ef80575fe911"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a027461b35f0b0e8c2245ef80575fe911">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3b929350b08473bf7001fb6e8d38f64d" name="a3b929350b08473bf7001fb6e8d38f64d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b929350b08473bf7001fb6e8d38f64d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79789b33f1e3e7e2f3908b939ae1e44c" name="a79789b33f1e3e7e2f3908b939ae1e44c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79789b33f1e3e7e2f3908b939ae1e44c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb04bf74aa1979914c837887050094ee" name="acb04bf74aa1979914c837887050094ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb04bf74aa1979914c837887050094ee">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f1dc526305df11d57d5151eb78864fd" name="a8f1dc526305df11d57d5151eb78864fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f1dc526305df11d57d5151eb78864fd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html b/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html
new file mode 100644
index 000000000..c15bae171
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html
@@ -0,0 +1,1166 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a040a74b95b542902bfb38bacd03202eb" name="a040a74b95b542902bfb38bacd03202eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a040a74b95b542902bfb38bacd03202eb">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa77ffcc8cedf9fe2668e96e9305bdccb" name="aa77ffcc8cedf9fe2668e96e9305bdccb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa77ffcc8cedf9fe2668e96e9305bdccb">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac111217914f0bc07a2ec19cf00f46b52" name="ac111217914f0bc07a2ec19cf00f46b52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac111217914f0bc07a2ec19cf00f46b52">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8aee7d2ca70c048a87381106420a93b3" name="a8aee7d2ca70c048a87381106420a93b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8aee7d2ca70c048a87381106420a93b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46cd5ec5d4f141fe5dcce4a8b22a1aff" name="a46cd5ec5d4f141fe5dcce4a8b22a1aff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46cd5ec5d4f141fe5dcce4a8b22a1aff">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa223add1301373e53e5b0ac08530a54e" name="aa223add1301373e53e5b0ac08530a54e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa223add1301373e53e5b0ac08530a54e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab5dafd4069aae36629ecb34e3975ea6f" name="ab5dafd4069aae36629ecb34e3975ea6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5dafd4069aae36629ecb34e3975ea6f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4682eb9fbf137eb4577349e11559ecd0" name="a4682eb9fbf137eb4577349e11559ecd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4682eb9fbf137eb4577349e11559ecd0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab83eacf00da6299593ee678a4b1e4615" name="ab83eacf00da6299593ee678a4b1e4615"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab83eacf00da6299593ee678a4b1e4615">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb1714d604a523f5860b4c87e669c715" name="acb1714d604a523f5860b4c87e669c715"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb1714d604a523f5860b4c87e669c715">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__cuda_8cu.html b/gen__embedding__backward__sgd__split__weighted__cuda_8cu.html
new file mode 100644
index 000000000..5d86d13b5
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__cuda_8cu.html
@@ -0,0 +1,277 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a16ec895b54d5b04f3fdfa67930c1c02a" name="a16ec895b54d5b04f3fdfa67930c1c02a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16ec895b54d5b04f3fdfa67930c1c02a">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html b/gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html
new file mode 100644
index 000000000..006855563
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html
@@ -0,0 +1,1326 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a02bd16452698dd0ae512e183e1ed25bb" name="a02bd16452698dd0ae512e183e1ed25bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02bd16452698dd0ae512e183e1ed25bb">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab426569c3d6a90703854ec88079c3cf" name="aab426569c3d6a90703854ec88079c3cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab426569c3d6a90703854ec88079c3cf">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6476f9b0a8e869bb5f1fbc1c39714ca" name="af6476f9b0a8e869bb5f1fbc1c39714ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6476f9b0a8e869bb5f1fbc1c39714ca">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad32698d0cc220a69f7ffe6cf58fe5389" name="ad32698d0cc220a69f7ffe6cf58fe5389"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad32698d0cc220a69f7ffe6cf58fe5389">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa5cf42df68862104a475751de18f2d7d" name="aa5cf42df68862104a475751de18f2d7d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5cf42df68862104a475751de18f2d7d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad84b0786ecfc63b8b6b3a1383dbfe719" name="ad84b0786ecfc63b8b6b3a1383dbfe719"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad84b0786ecfc63b8b6b3a1383dbfe719">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0246985d6062109ceb9d0a316e236be9" name="a0246985d6062109ceb9d0a316e236be9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0246985d6062109ceb9d0a316e236be9">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adc76a3911b3c75253490fa732520c59d" name="adc76a3911b3c75253490fa732520c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc76a3911b3c75253490fa732520c59d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8e719bacb730ff6f6f24b072264fece" name="ae8e719bacb730ff6f6f24b072264fece"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8e719bacb730ff6f6f24b072264fece">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a5b4fc1cd662532df45be95fae00e34" name="a1a5b4fc1cd662532df45be95fae00e34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a5b4fc1cd662532df45be95fae00e34">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html b/gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html
new file mode 100644
index 000000000..15171fac9
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html
@@ -0,0 +1,1126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab2b8f92ece6c5a09d11a65969626378d" name="ab2b8f92ece6c5a09d11a65969626378d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2b8f92ece6c5a09d11a65969626378d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac60290f3d38a825226fe8014a9274e3d" name="ac60290f3d38a825226fe8014a9274e3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac60290f3d38a825226fe8014a9274e3d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a153506803483f7484c6fc69a32b06b26" name="a153506803483f7484c6fc69a32b06b26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a153506803483f7484c6fc69a32b06b26">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af896552004ed24a4f6289bd6321b95b3" name="af896552004ed24a4f6289bd6321b95b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af896552004ed24a4f6289bd6321b95b3">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8e5539e49116fc0d95e74b70fff7eb96" name="a8e5539e49116fc0d95e74b70fff7eb96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e5539e49116fc0d95e74b70fff7eb96">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a981ec80c80a0ca3713a250bca8dcfd2d" name="a981ec80c80a0ca3713a250bca8dcfd2d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a981ec80c80a0ca3713a250bca8dcfd2d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae79041a9602287ab549b549edc4f5040" name="ae79041a9602287ab549b549edc4f5040"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae79041a9602287ab549b549edc4f5040">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a050fc99733adcb785414bd0c401d02e0" name="a050fc99733adcb785414bd0c401d02e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a050fc99733adcb785414bd0c401d02e0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7b4db1681ed1be00464c3420ff441efa" name="a7b4db1681ed1be00464c3420ff441efa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b4db1681ed1be00464c3420ff441efa">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2742fc3885cf36bb8ac4d7d4c24587f" name="ac2742fc3885cf36bb8ac4d7d4c24587f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2742fc3885cf36bb8ac4d7d4c24587f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html b/gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html
new file mode 100644
index 000000000..a4f147187
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html
@@ -0,0 +1,292 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="accce092d5cf27275da7d960efa6c6321" name="accce092d5cf27275da7d960efa6c6321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accce092d5cf27275da7d960efa6c6321">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9ee8617b61b6a4be1391fe53321bf927" name="a9ee8617b61b6a4be1391fe53321bf927"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ee8617b61b6a4be1391fe53321bf927">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>unused_</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html b/gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html
new file mode 100644
index 000000000..241517d96
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html
@@ -0,0 +1,1406 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4ca2ae3bf6df90dd1f3a4bf8b534231e" name="a4ca2ae3bf6df90dd1f3a4bf8b534231e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ca2ae3bf6df90dd1f3a4bf8b534231e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac83482e2c195bd6662609604217a4903" name="ac83482e2c195bd6662609604217a4903"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac83482e2c195bd6662609604217a4903">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ef721cf4ccbf7faeaad926427c279f7" name="a4ef721cf4ccbf7faeaad926427c279f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ef721cf4ccbf7faeaad926427c279f7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7ee0552285c492916b1c76b31630d3c2" name="a7ee0552285c492916b1c76b31630d3c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ee0552285c492916b1c76b31630d3c2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa3e935211a7fd38509a279705c5e5d7" name="aaa3e935211a7fd38509a279705c5e5d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa3e935211a7fd38509a279705c5e5d7">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a57427b04d21bb9e1302a85d709f94e02" name="a57427b04d21bb9e1302a85d709f94e02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57427b04d21bb9e1302a85d709f94e02">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3860c9b9fc99bf6f1e19426e6d95f473" name="a3860c9b9fc99bf6f1e19426e6d95f473"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3860c9b9fc99bf6f1e19426e6d95f473">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf78b0255c91deececdee2d30eb7f2ae" name="adf78b0255c91deececdee2d30eb7f2ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf78b0255c91deececdee2d30eb7f2ae">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad07aac3191ff79c34b89afd9b89305ad" name="ad07aac3191ff79c34b89afd9b89305ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad07aac3191ff79c34b89afd9b89305ad">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aae8702725dfe41086ad78bb86764b34c" name="aae8702725dfe41086ad78bb86764b34c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae8702725dfe41086ad78bb86764b34c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>num_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>long_run_id_to_really_long_run_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>temp_grad_accum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_accum_counter</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_cta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_deterministic_algorithms</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html b/gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html
new file mode 100644
index 000000000..4a419ee29
--- /dev/null
+++ b/gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html
@@ -0,0 +1,1206 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a412bd503e722e4451e55ef89a4bb3649" name="a412bd503e722e4451e55ef89a4bb3649"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a412bd503e722e4451e55ef89a4bb3649">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5cbbacf7ec8ecfad9f032e7217474f71" name="a5cbbacf7ec8ecfad9f032e7217474f71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5cbbacf7ec8ecfad9f032e7217474f71">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88f0e0bc690728b1e246b8248e9ec6e5" name="a88f0e0bc690728b1e246b8248e9ec6e5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88f0e0bc690728b1e246b8248e9ec6e5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4342e36e81769a5d3992a7c557cb4e0e" name="a4342e36e81769a5d3992a7c557cb4e0e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4342e36e81769a5d3992a7c557cb4e0e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab065602b705ef3209e6d4de9f8dc0bb2" name="ab065602b705ef3209e6d4de9f8dc0bb2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab065602b705ef3209e6d4de9f8dc0bb2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7a033e21d13e0bd2a2268a4086c9770" name="ac7a033e21d13e0bd2a2268a4086c9770"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7a033e21d13e0bd2a2268a4086c9770">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1&lt; at template __global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">kBackwardMaxThreads</a>) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1&lt; at template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a027faf7fa459ca567059607e155a1546" name="a027faf7fa459ca567059607e155a1546"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a027faf7fa459ca567059607e155a1546">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afcba725b1740e61675c5148dd9523082" name="afcba725b1740e61675c5148dd9523082"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afcba725b1740e61675c5148dd9523082">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a573d877b87f31127000da9bc22ad74f2" name="a573d877b87f31127000da9bc22ad74f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a573d877b87f31127000da9bc22ad74f2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ab8a7e2535ae5a3f056f529bcb1071a" name="a0ab8a7e2535ae5a3f056f529bcb1071a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ab8a7e2535ae5a3f056f529bcb1071a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_run</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>table_unique_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__adagrad_8cpp.html b/gen__embedding__backward__split__adagrad_8cpp.html
new file mode 100644
index 000000000..f1d020aca
--- /dev/null
+++ b/gen__embedding__backward__split__adagrad_8cpp.html
@@ -0,0 +1,889 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_adagrad.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_adagrad.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a06b1cf5ad03a298c5257a31b33524398" name="a06b1cf5ad03a298c5257a31b33524398"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06b1cf5ad03a298c5257a31b33524398">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="affb9be553e49e7bea6a6c3f60b63dc04" name="affb9be553e49e7bea6a6c3f60b63dc04"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affb9be553e49e7bea6a6c3f60b63dc04">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad491e078738cfd46a4d2377948b977fc" name="ad491e078738cfd46a4d2377948b977fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad491e078738cfd46a4d2377948b977fc">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__adagrad__cpu_8cpp.html b/gen__embedding__backward__split__adagrad__cpu_8cpp.html
new file mode 100644
index 000000000..294847e5c
--- /dev/null
+++ b/gen__embedding__backward__split__adagrad__cpu_8cpp.html
@@ -0,0 +1,215 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_adagrad_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_adagrad_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5e9389fec0497e9f90df6043627319ca" name="a5e9389fec0497e9f90df6043627319ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e9389fec0497e9f90df6043627319ca">&#9670;&#160;</a></span>split_embedding_backward_codegen_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__adam_8cpp.html b/gen__embedding__backward__split__adam_8cpp.html
new file mode 100644
index 000000000..9fd0ab8c0
--- /dev/null
+++ b/gen__embedding__backward__split__adam_8cpp.html
@@ -0,0 +1,1009 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_adam.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_adam.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae27a3d26d13d596aaaa1e621990e0d71" name="ae27a3d26d13d596aaaa1e621990e0d71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae27a3d26d13d596aaaa1e621990e0d71">&#9670;&#160;</a></span>split_embedding_backward_codegen_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8e4ae3bed221149c3b3ab6a5c0f38605" name="a8e4ae3bed221149c3b3ab6a5c0f38605"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e4ae3bed221149c3b3ab6a5c0f38605">&#9670;&#160;</a></span>split_embedding_backward_codegen_adam_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_adam_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a9de0e9036f30dbd7d7e4442ae7e5fe" name="a6a9de0e9036f30dbd7d7e4442ae7e5fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a9de0e9036f30dbd7d7e4442ae7e5fe">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__adam__cpu_8cpp.html b/gen__embedding__backward__split__adam__cpu_8cpp.html
new file mode 100644
index 000000000..3700d2bb6
--- /dev/null
+++ b/gen__embedding__backward__split__adam__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_adam_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_adam_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html
new file mode 100644
index 000000000..b1194c620
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html
new file mode 100644
index 000000000..f502509a8
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html
new file mode 100644
index 000000000..94efd4eca
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html
new file mode 100644
index 000000000..5495137b6
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html
new file mode 100644
index 000000000..b02dce432
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html
@@ -0,0 +1,919 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="afbce26182226d45104cf25fc6ebf90df" name="afbce26182226d45104cf25fc6ebf90df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbce26182226d45104cf25fc6ebf90df">&#9670;&#160;</a></span>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae5ec715aff7b59ae2cd64991053a8744" name="ae5ec715aff7b59ae2cd64991053a8744"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5ec715aff7b59ae2cd64991053a8744">&#9670;&#160;</a></span>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a701f363d76409a2aa4df028f12ba0300" name="a701f363d76409a2aa4df028f12ba0300"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a701f363d76409a2aa4df028f12ba0300">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html b/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html
new file mode 100644
index 000000000..4711b7106
--- /dev/null
+++ b/gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__sgd_8cpp.html b/gen__embedding__backward__split__approx__sgd_8cpp.html
new file mode 100644
index 000000000..12a05ed04
--- /dev/null
+++ b/gen__embedding__backward__split__approx__sgd_8cpp.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_sgd.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_sgd.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__approx__sgd__cpu_8cpp.html b/gen__embedding__backward__split__approx__sgd__cpu_8cpp.html
new file mode 100644
index 000000000..e2c052fbe
--- /dev/null
+++ b/gen__embedding__backward__split__approx__sgd__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_approx_sgd_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_approx_sgd_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__grad_8cu.html b/gen__embedding__backward__split__grad_8cu.html
new file mode 100644
index 000000000..0c88cb9ea
--- /dev/null
+++ b/gen__embedding__backward__split__grad_8cu.html
@@ -0,0 +1,291 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_grad.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_grad.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9cbee37a9474b3f03b3e585c448b63ee" name="a9cbee37a9474b3f03b3e585c448b63ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9cbee37a9474b3f03b3e585c448b63ee">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename grad_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__(kMaxThreads) void grad_mean_vbe_kernel&lt; at template __global__ __launch_bounds__(kMaxThreads) void grad_mean_vbe_kernel&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt;(pta __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acfcb5a71381871c2d136a1e7ffc68b4c" name="acfcb5a71381871c2d136a1e7ffc68b4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acfcb5a71381871c2d136a1e7ffc68b4c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename grad_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2dd7fc517b5148ca80cff10cd7cbcaed" name="a2dd7fc517b5148ca80cff10cd7cbcaed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2dd7fc517b5148ca80cff10cd7cbcaed">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea453d06a5b06a7263bbb3c3c598b805" name="aea453d06a5b06a7263bbb3c3c598b805"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea453d06a5b06a7263bbb3c3c598b805">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename info_pta_t , typename info_t , bool nobag&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a05118d1db073d73fe80ee01b40791cf6" name="a05118d1db073d73fe80ee01b40791cf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05118d1db073d73fe80ee01b40791cf6">&#9670;&#160;</a></span>false()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ false </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_or_uvm_unique_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0ccb06b8169682c123d1399ed8e1869" name="af0ccb06b8169682c123d1399ed8e1869"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0ccb06b8169682c123d1399ed8e1869">&#9670;&#160;</a></span>true()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ true </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_cumulative_run_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>sorted_infos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_or_uvm_unique_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="af261ebff9d4ab236e8dd6bea30db7fb1" name="af261ebff9d4ab236e8dd6bea30db7fb1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af261ebff9d4ab236e8dd6bea30db7fb1">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe53421bcec0b67763c3ed41e3a2a2ad" name="abe53421bcec0b67763c3ed41e3a2a2ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe53421bcec0b67763c3ed41e3a2a2ad">&#9670;&#160;</a></span>uint32_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ uint32_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html b/gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html
new file mode 100644
index 000000000..fee7d36fa
--- /dev/null
+++ b/gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html
@@ -0,0 +1,307 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_indice_weights_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_indice_weights_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a422182213e14442c911aa3ba3ed18a58" name="a422182213e14442c911aa3ba3ed18a58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a422182213e14442c911aa3ba3ed18a58">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename grad_t , typename cache_t , size_t kMaxVecsPerThread&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8a987f07ba5142ffd7a0733824925a2" name="ae8a987f07ba5142ffd7a0733824925a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8a987f07ba5142ffd7a0733824925a2">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__lamb_8cpp.html b/gen__embedding__backward__split__lamb_8cpp.html
new file mode 100644
index 000000000..4b67da080
--- /dev/null
+++ b/gen__embedding__backward__split__lamb_8cpp.html
@@ -0,0 +1,1009 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_lamb.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_lamb.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="abafaac43ca0a5d04be6280c0db92ef81" name="abafaac43ca0a5d04be6280c0db92ef81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abafaac43ca0a5d04be6280c0db92ef81">&#9670;&#160;</a></span>split_embedding_backward_codegen_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2cb504a8487e7581fcf600c9dd9bb4da" name="a2cb504a8487e7581fcf600c9dd9bb4da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cb504a8487e7581fcf600c9dd9bb4da">&#9670;&#160;</a></span>split_embedding_backward_codegen_lamb_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lamb_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a557b019964c8d292ca9923927e0d974a" name="a557b019964c8d292ca9923927e0d974a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a557b019964c8d292ca9923927e0d974a">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__lamb__cpu_8cpp.html b/gen__embedding__backward__split__lamb__cpu_8cpp.html
new file mode 100644
index 000000000..499320c0d
--- /dev/null
+++ b/gen__embedding__backward__split__lamb__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_lamb_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_lamb_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__lars__sgd_8cpp.html b/gen__embedding__backward__split__lars__sgd_8cpp.html
new file mode 100644
index 000000000..42b5e38be
--- /dev/null
+++ b/gen__embedding__backward__split__lars__sgd_8cpp.html
@@ -0,0 +1,919 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_lars_sgd.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_lars_sgd.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad6a69a83e0c09e08c8854f3a988349c2" name="ad6a69a83e0c09e08c8854f3a988349c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6a69a83e0c09e08c8854f3a988349c2">&#9670;&#160;</a></span>split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a592a95a9e623ca87fb31c88bc11ef217" name="a592a95a9e623ca87fb31c88bc11ef217"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a592a95a9e623ca87fb31c88bc11ef217">&#9670;&#160;</a></span>split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a80df1bf7d746582f689d6bc4652f7266" name="a80df1bf7d746582f689d6bc4652f7266"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80df1bf7d746582f689d6bc4652f7266">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eta</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>momentum</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__lars__sgd__cpu_8cpp.html b/gen__embedding__backward__split__lars__sgd__cpu_8cpp.html
new file mode 100644
index 000000000..af399a615
--- /dev/null
+++ b/gen__embedding__backward__split__lars__sgd__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_lars_sgd_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_lars_sgd_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__none_8cpp.html b/gen__embedding__backward__split__none_8cpp.html
new file mode 100644
index 000000000..55baa9179
--- /dev/null
+++ b/gen__embedding__backward__split__none_8cpp.html
@@ -0,0 +1,814 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_none.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_none.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab8077c80baaf216fec8c7c0c81cd0c29" name="ab8077c80baaf216fec8c7c0c81cd0c29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8077c80baaf216fec8c7c0c81cd0c29">&#9670;&#160;</a></span>split_embedding_backward_codegen_none_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_none_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7808efa8b7d1caa4534528c97b55a26b" name="a7808efa8b7d1caa4534528c97b55a26b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7808efa8b7d1caa4534528c97b55a26b">&#9670;&#160;</a></span>split_embedding_backward_codegen_none_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_none_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1540203f5279dd87016b397fe33fb041" name="a1540203f5279dd87016b397fe33fb041"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1540203f5279dd87016b397fe33fb041">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__none__cpu_8cpp.html b/gen__embedding__backward__split__none__cpu_8cpp.html
new file mode 100644
index 000000000..00c6b83df
--- /dev/null
+++ b/gen__embedding__backward__split__none__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_none_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_none_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__partial__rowwise__adam_8cpp.html b/gen__embedding__backward__split__partial__rowwise__adam_8cpp.html
new file mode 100644
index 000000000..87b95470a
--- /dev/null
+++ b/gen__embedding__backward__split__partial__rowwise__adam_8cpp.html
@@ -0,0 +1,1009 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_partial_rowwise_adam.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_partial_rowwise_adam.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a3d1da3b63c8a16884d3de8d52c0b99fd" name="a3d1da3b63c8a16884d3de8d52c0b99fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d1da3b63c8a16884d3de8d52c0b99fd">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa1e9d0adf68022fa575a63182a95745" name="aaa1e9d0adf68022fa575a63182a95745"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa1e9d0adf68022fa575a63182a95745">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed21b16681b11ddd3303195bc4e278ec" name="aed21b16681b11ddd3303195bc4e278ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed21b16681b11ddd3303195bc4e278ec">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html b/gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html
new file mode 100644
index 000000000..a3d567acf
--- /dev/null
+++ b/gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html b/gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html
new file mode 100644
index 000000000..ddd1b3613
--- /dev/null
+++ b/gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html
@@ -0,0 +1,1009 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_partial_rowwise_lamb.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_partial_rowwise_lamb.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab047f1b46e810b2a48f66387d37cd588" name="ab047f1b46e810b2a48f66387d37cd588"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab047f1b46e810b2a48f66387d37cd588">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6619694897abaeee44b975fa9614d7e3" name="a6619694897abaeee44b975fa9614d7e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6619694897abaeee44b975fa9614d7e3">&#9670;&#160;</a></span>split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad14c41705ba6da0dc89b8802945b9a3a" name="ad14c41705ba6da0dc89b8802945b9a3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad14c41705ba6da0dc89b8802945b9a3a">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html b/gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html
new file mode 100644
index 000000000..f1c4af1b9
--- /dev/null
+++ b/gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad_8cpp.html
new file mode 100644
index 000000000..6da0c1709
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad_8cpp.html
@@ -0,0 +1,1599 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad73707297535524e1eeff86f23adfdfa" name="ad73707297535524e1eeff86f23adfdfa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad73707297535524e1eeff86f23adfdfa">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae52a1e89225c55716b2505ef0b14b32c" name="ae52a1e89225c55716b2505ef0b14b32c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae52a1e89225c55716b2505ef0b14b32c">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a394f3f0a5cbe256e703c0bb34bfe50b3" name="a394f3f0a5cbe256e703c0bb34bfe50b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a394f3f0a5cbe256e703c0bb34bfe50b3">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af257dbbdb6a2c64fdb2e038bb39190c1" name="af257dbbdb6a2c64fdb2e038bb39190c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af257dbbdb6a2c64fdb2e038bb39190c1">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a028ac1d276dc02b3db5e9195eea165f3" name="a028ac1d276dc02b3db5e9195eea165f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a028ac1d276dc02b3db5e9195eea165f3">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b7f13ed95640b7a8e42d3f0ff3f2b46" name="a0b7f13ed95640b7a8e42d3f0ff3f2b46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b7f13ed95640b7a8e42d3f0ff3f2b46">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8a987f07ba5142ffd7a0733824925a2" name="ae8a987f07ba5142ffd7a0733824925a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8a987f07ba5142ffd7a0733824925a2">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4bdf992307f845985594c371275668a8" name="a4bdf992307f845985594c371275668a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4bdf992307f845985594c371275668a8">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html
new file mode 100644
index 000000000..0dde9fdf1
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html
@@ -0,0 +1,230 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a73c1fd212c2c324e57b0f906a2598360" name="a73c1fd212c2c324e57b0f906a2598360"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73c1fd212c2c324e57b0f906a2598360">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html
new file mode 100644
index 000000000..e39e00097
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html
@@ -0,0 +1,1219 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aea7503341318b3b0142a83d310046516" name="aea7503341318b3b0142a83d310046516"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea7503341318b3b0142a83d310046516">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07c978ecc3495651d0123d01876f68ca" name="a07c978ecc3495651d0123d01876f68ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07c978ecc3495651d0123d01876f68ca">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7a94588a2cce7c8cad5f1654d5724ea3" name="a7a94588a2cce7c8cad5f1654d5724ea3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7a94588a2cce7c8cad5f1654d5724ea3">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html
new file mode 100644
index 000000000..28ec12387
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html
@@ -0,0 +1,315 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2e90723fcad83f3054bc6f661de849c1" name="a2e90723fcad83f3054bc6f661de849c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e90723fcad83f3054bc6f661de849c1">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html
new file mode 100644
index 000000000..10d5f289a
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html
@@ -0,0 +1,919 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9f5e043a0a43d92b7a748c27e6ce8060" name="a9f5e043a0a43d92b7a748c27e6ce8060"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f5e043a0a43d92b7a748c27e6ce8060">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6cb23330ccfc55cc78d828d1fd8b59fb" name="a6cb23330ccfc55cc78d828d1fd8b59fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6cb23330ccfc55cc78d828d1fd8b59fb">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a31dd9b41f6ea038416e54092a7fcb594" name="a31dd9b41f6ea038416e54092a7fcb594"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a31dd9b41f6ea038416e54092a7fcb594">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html b/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html
new file mode 100644
index 000000000..3493e73d6
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html b/gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html
new file mode 100644
index 000000000..43ee48ad8
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html
@@ -0,0 +1,919 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_weighted_adagrad.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a3a9f041d93d95908fbe76052c3d48a3e" name="a3a9f041d93d95908fbe76052c3d48a3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a9f041d93d95908fbe76052c3d48a3e">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad0ff2a4c042997b9969d779d3c91c59" name="aad0ff2a4c042997b9969d779d3c91c59"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad0ff2a4c042997b9969d779d3c91c59">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaf57ee3cb4514d7ccec1c0f5bd653ed3" name="aaf57ee3cb4514d7ccec1c0f5bd653ed3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf57ee3cb4514d7ccec1c0f5bd653ed3">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html b/gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html
new file mode 100644
index 000000000..414f5facd
--- /dev/null
+++ b/gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html
@@ -0,0 +1,225 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="acb5592b9d0b5b9344302f69c0f1be10b" name="acb5592b9d0b5b9344302f69c0f1be10b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb5592b9d0b5b9344302f69c0f1be10b">&#9670;&#160;</a></span>split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_host</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__sgd_8cpp.html b/gen__embedding__backward__split__sgd_8cpp.html
new file mode 100644
index 000000000..71854cd92
--- /dev/null
+++ b/gen__embedding__backward__split__sgd_8cpp.html
@@ -0,0 +1,1399 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_sgd.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_sgd.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8f7618b0f318fed552700a9303e0c500" name="a8f7618b0f318fed552700a9303e0c500"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f7618b0f318fed552700a9303e0c500">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa75d2899ee39c0d5f71e426d1cc7d57c" name="aa75d2899ee39c0d5f71e426d1cc7d57c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa75d2899ee39c0d5f71e426d1cc7d57c">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2934aefc05b7ad4bc6e07074f0a2ee1e" name="a2934aefc05b7ad4bc6e07074f0a2ee1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2934aefc05b7ad4bc6e07074f0a2ee1e">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_weighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_weighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67f194387a7e81de22d969964f1cc379" name="a67f194387a7e81de22d969964f1cc379"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67f194387a7e81de22d969964f1cc379">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a028ac1d276dc02b3db5e9195eea165f3" name="a028ac1d276dc02b3db5e9195eea165f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a028ac1d276dc02b3db5e9195eea165f3">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b7f13ed95640b7a8e42d3f0ff3f2b46" name="a0b7f13ed95640b7a8e42d3f0ff3f2b46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b7f13ed95640b7a8e42d3f0ff3f2b46">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fb867d681110d956ddaf10f110156a1" name="a1fb867d681110d956ddaf10f110156a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fb867d681110d956ddaf10f110156a1">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8a987f07ba5142ffd7a0733824925a2" name="ae8a987f07ba5142ffd7a0733824925a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8a987f07ba5142ffd7a0733824925a2">&#9670;&#160;</a></span>split_embedding_codegen_grad_indice_weights_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_grad_indice_weights_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad92e69305915e46befca51e7288b428b" name="ad92e69305915e46befca51e7288b428b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad92e69305915e46befca51e7288b428b">&#9670;&#160;</a></span>split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>BT_block_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_segment_length_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1913bdf24279dfcc3932843af149fd0" name="ad1913bdf24279dfcc3932843af149fd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1913bdf24279dfcc3932843af149fd0">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fb</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__backward__split__sgd__cpu_8cpp.html b/gen__embedding__backward__split__sgd__cpu_8cpp.html
new file mode 100644
index 000000000..0790fca63
--- /dev/null
+++ b/gen__embedding__backward__split__sgd__cpu_8cpp.html
@@ -0,0 +1,195 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_backward_split_sgd_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_backward_split_sgd_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__split__cpu_8h.html">codegen/embedding_forward_split_cpu.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9d914bb02aed97803fcc9237f00403fa" name="a9d914bb02aed97803fcc9237f00403fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d914bb02aed97803fcc9237f00403fa">&#9670;&#160;</a></span>split_embedding_backward_codegen_sgd_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_backward_codegen_sgd_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>host_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval">static_cast&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;&gt;(SparseType::FP32)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html b/gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..c48d7f78a
--- /dev/null
+++ b/gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html
@@ -0,0 +1,319 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_unweighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_unweighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a840483d38dd0ee3fe4b398ebee5bf3d7" name="a840483d38dd0ee3fe4b398ebee5bf3d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a840483d38dd0ee3fe4b398ebee5bf3d7">&#9670;&#160;</a></span>dense_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aadd3974603c08fba6a7c21638a57e7f4" name="aadd3974603c08fba6a7c21638a57e7f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aadd3974603c08fba6a7c21638a57e7f4">&#9670;&#160;</a></span>dense_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html b/gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html
new file mode 100644
index 000000000..e827fbfe7
--- /dev/null
+++ b/gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html
@@ -0,0 +1,234 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_unweighted_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_unweighted_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac9e6ce9ed24a999160137cd295420a9f" name="ac9e6ce9ed24a999160137cd295420a9f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9e6ce9ed24a999160137cd295420a9f">&#9670;&#160;</a></span>dense_embedding_codegen_forward_unweighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_unweighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9b06d5bef944e3f22c1b7d5faf0cc73" name="ac9b06d5bef944e3f22c1b7d5faf0cc73"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9b06d5bef944e3f22c1b7d5faf0cc73">&#9670;&#160;</a></span>dense_embedding_nobag_codegen_forward_unweighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_nobag_codegen_forward_unweighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__unweighted__kernel_8cu.html b/gen__embedding__forward__dense__unweighted__kernel_8cu.html
new file mode 100644
index 000000000..4ba2e419d
--- /dev/null
+++ b/gen__embedding__forward__dense__unweighted__kernel_8cu.html
@@ -0,0 +1,489 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_unweighted_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_unweighted_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab27358be96fd39a3d879e0e3f942c616" name="ab27358be96fd39a3d879e0e3f942c616"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab27358be96fd39a3d879e0e3f942c616">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a830a55ef37b6607a42e4b4cbb6889aa5" name="a830a55ef37b6607a42e4b4cbb6889aa5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a830a55ef37b6607a42e4b4cbb6889aa5">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e36f01e2e5309c8de784ae9cf8b6995" name="a5e36f01e2e5309c8de784ae9cf8b6995"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e36f01e2e5309c8de784ae9cf8b6995">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae45afbdb3f525626eeb8ec0c6be41f24" name="ae45afbdb3f525626eeb8ec0c6be41f24"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae45afbdb3f525626eeb8ec0c6be41f24">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8a9dfc0b7289bfa8ee20c3a9c89a1382" name="a8a9dfc0b7289bfa8ee20c3a9c89a1382"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a9dfc0b7289bfa8ee20c3a9c89a1382">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4cfe4909493e5c6c0b3272b407756da5" name="a4cfe4909493e5c6c0b3272b407756da5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4cfe4909493e5c6c0b3272b407756da5">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54d7f4614b27377a702368d9be00913a" name="a54d7f4614b27377a702368d9be00913a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54d7f4614b27377a702368d9be00913a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afb628f9293807019a85f62216802fb27" name="afb628f9293807019a85f62216802fb27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb628f9293807019a85f62216802fb27">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html b/gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html
new file mode 100644
index 000000000..d51d4f9fd
--- /dev/null
+++ b/gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html
@@ -0,0 +1,459 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_unweighted_nobag_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_unweighted_nobag_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0178272d43da8f09567a976c98e4617c" name="a0178272d43da8f09567a976c98e4617c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0178272d43da8f09567a976c98e4617c">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a13a4edf8545bd07a774fe7420e8d397b" name="a13a4edf8545bd07a774fe7420e8d397b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a13a4edf8545bd07a774fe7420e8d397b">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a623f10d789c87a085d7c83199ac22f55" name="a623f10d789c87a085d7c83199ac22f55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a623f10d789c87a085d7c83199ac22f55">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab30ac9e21532c639d357440a7edfc7eb" name="ab30ac9e21532c639d357440a7edfc7eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab30ac9e21532c639d357440a7edfc7eb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a63685bd7126cdab9a0d8e4046c3e150c" name="a63685bd7126cdab9a0d8e4046c3e150c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a63685bd7126cdab9a0d8e4046c3e150c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ddc1dda2eb92f1166514ddb7da1bbc4" name="a9ddc1dda2eb92f1166514ddb7da1bbc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ddc1dda2eb92f1166514ddb7da1bbc4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a031019a7e2638f18e08649bd6c279449" name="a031019a7e2638f18e08649bd6c279449"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a031019a7e2638f18e08649bd6c279449">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a067da40e6e91e38bb46e13bab2169087" name="a067da40e6e91e38bb46e13bab2169087"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a067da40e6e91e38bb46e13bab2169087">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html b/gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html
new file mode 100644
index 000000000..64a1fcf43
--- /dev/null
+++ b/gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html
@@ -0,0 +1,281 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa128173842fe96c64a581b2efdd5fe7e" name="aa128173842fe96c64a581b2efdd5fe7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa128173842fe96c64a581b2efdd5fe7e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a38384adec04c76c7f4267c8c1cdc7ff7" name="a38384adec04c76c7f4267c8c1cdc7ff7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a38384adec04c76c7f4267c8c1cdc7ff7">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a057f5488fcdaf454d09c4f1b25374ac9" name="a057f5488fcdaf454d09c4f1b25374ac9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a057f5488fcdaf454d09c4f1b25374ac9">&#9670;&#160;</a></span>D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> D</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac251990f6a37927ea6f8c58584ec7a4c" name="ac251990f6a37927ea6f8c58584ec7a4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac251990f6a37927ea6f8c58584ec7a4c">&#9670;&#160;</a></span>dev_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; dev_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a488a7f217a1d4705fbcdce81e0a028b2" name="a488a7f217a1d4705fbcdce81e0a028b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a488a7f217a1d4705fbcdce81e0a028b2">&#9670;&#160;</a></span>fd_B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a983b46d1ccd1b8d7ee0f786801acdabf" name="a983b46d1ccd1b8d7ee0f786801acdabf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a983b46d1ccd1b8d7ee0f786801acdabf">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff2584a62b3409906c19c5419a4cc647" name="aff2584a62b3409906c19c5419a4cc647"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff2584a62b3409906c19c5419a4cc647">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6e6ad15bb4078d9c64b33a85e9618ec" name="af6e6ad15bb4078d9c64b33a85e9618ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6e6ad15bb4078d9c64b33a85e9618ec">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits&gt; output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8952c1fa3b8169bec4e9aa6f07ce2271" name="a8952c1fa3b8169bec4e9aa6f07ce2271"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8952c1fa3b8169bec4e9aa6f07ce2271">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html b/gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..09e64245f
--- /dev/null
+++ b/gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html
@@ -0,0 +1,278 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_weighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_weighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4e4e521f171d17c5d78bee2b3c9b21db" name="a4e4e521f171d17c5d78bee2b3c9b21db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e4e521f171d17c5d78bee2b3c9b21db">&#9670;&#160;</a></span>dense_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html b/gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html
new file mode 100644
index 000000000..710f79b8b
--- /dev/null
+++ b/gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html
@@ -0,0 +1,193 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_weighted_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_weighted_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac89d0c2dc36fc6053f0425a919711b3a" name="ac89d0c2dc36fc6053f0425a919711b3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac89d0c2dc36fc6053f0425a919711b3a">&#9670;&#160;</a></span>dense_embedding_codegen_forward_weighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> dense_embedding_codegen_forward_weighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__dense__weighted__kernel_8cu.html b/gen__embedding__forward__dense__weighted__kernel_8cu.html
new file mode 100644
index 000000000..ead2f9f58
--- /dev/null
+++ b/gen__embedding__forward__dense__weighted__kernel_8cu.html
@@ -0,0 +1,855 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_dense_weighted_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_dense_weighted_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a40c420d5aadf8202b8a9de25931c44ff" name="a40c420d5aadf8202b8a9de25931c44ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a40c420d5aadf8202b8a9de25931c44ff">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa272d7ae5549cc1f16cb4761f3edf890" name="aa272d7ae5549cc1f16cb4761f3edf890"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa272d7ae5549cc1f16cb4761f3edf890">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4199338fdc51c5f831d168e63d783674" name="a4199338fdc51c5f831d168e63d783674"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4199338fdc51c5f831d168e63d783674">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83fe0c13753b93fbe0b623e8bc652721" name="a83fe0c13753b93fbe0b623e8bc652721"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83fe0c13753b93fbe0b623e8bc652721">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6d957e4c772be151a4b6c0937b71e2c" name="ad6d957e4c772be151a4b6c0937b71e2c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6d957e4c772be151a4b6c0937b71e2c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a469aee03c0d8fde04842d8747ef880bb" name="a469aee03c0d8fde04842d8747ef880bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a469aee03c0d8fde04842d8747ef880bb">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3048e1d82f672e144f218a9bc1f02bba" name="a3048e1d82f672e144f218a9bc1f02bba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3048e1d82f672e144f218a9bc1f02bba">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abdf19a2e8c33cb0148de770a95bd662c" name="abdf19a2e8c33cb0148de770a95bd662c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abdf19a2e8c33cb0148de770a95bd662c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff669225134b913ac286c1517e039727" name="aff669225134b913ac286c1517e039727"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff669225134b913ac286c1517e039727">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a87b17b201934f903fd2f193ac6a71629" name="a87b17b201934f903fd2f193ac6a71629"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87b17b201934f903fd2f193ac6a71629">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a14fb66cd776fba62200b634101140f86" name="a14fb66cd776fba62200b634101140f86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14fb66cd776fba62200b634101140f86">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab0581905b4247bac67216a78dfb722c0" name="ab0581905b4247bac67216a78dfb722c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0581905b4247bac67216a78dfb722c0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa21811af7885f72fe15a805872bd5a22" name="aa21811af7885f72fe15a805872bd5a22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa21811af7885f72fe15a805872bd5a22">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3dfcd6c505c277727fdc5a5efd1f21d2" name="a3dfcd6c505c277727fdc5a5efd1f21d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3dfcd6c505c277727fdc5a5efd1f21d2">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..ee14e0668
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html
@@ -0,0 +1,648 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT2_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">template uint8_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1240</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a6d8072fe7f1cbd1cf456e3ea8a440ad3"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:119</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a764f8ae801cd000c2a5cb4bb23f14299"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:120</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a8a3ac708f5fc38ea5ebecdbe685f3c73"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:121</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a0c2527424502280dfcf6276b49b41cdc"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const lxu_cache_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:58</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a17f61eb7bf7a7e4089982fbf69116da5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const uvm_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:57</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a60a1ec59d36df78e844d5cd7a0d34f03"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t const FixedDivisor const index_t *__restrict__ const const index_t *__restrict__ const const uint32_t *__restrict__ const const int64_t *__restrict__ const const int32_t *__restrict__ const lxu_cache_locations</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:69</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_ad4dd9cc51f1eccdf4626318632701868"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const weights_placements</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:59</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a112ef14feafbe22a3b70fd5ddcefcf99"><div class="ttname"><a href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu::int32_t</a></div><div class="ttdeci">indices_is_long &amp;[is_long_idx] is_long_mask int32_t</div><div class="ttdef"><b>Definition</b> input_combine.cu:73</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a1e5f0f7703057bbda166a7723b16e6ef"><div class="ttname"><a href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">fbgemm_gpu::div_round_up</a></div><div class="ttdeci">__host__ DEVICE_INLINE int32_t div_round_up(int32_t a, int32_t b)</div><div class="ttdef"><b>Definition</b> fbgemm_cuda_utils.cuh:1460</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a2bef322c4183a01bc9d8e3c084ae1d15"><div class="ttname"><a href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu::T</a></div><div class="ttdeci">__global__ const int32_t const int32_t T</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:21</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aabefe307b5a16f2e2d2c5cc6c74719b6"><div class="ttname"><a href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu::indices</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ indices</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:26</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aad33dfd216d9ea27b505a304ca3e32da"><div class="ttname"><a href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu::offsets</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ offsets</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:25</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_adb51b4975da6fe6cd1f6465b56b3b8ab"><div class="ttname"><a href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu::B</a></div><div class="ttdeci">__global__ const int32_t B</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:20</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_ae662e9187ce6364e1668803dfbf7e7d0"><div class="ttname"><a href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">fbgemm_gpu::output</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ output</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:28</div></div>
+<div class="ttc" id="anamespacenbit_html_a620ba1c7dba3e279e09759758b7a86db"><div class="ttname"><a href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a></div><div class="ttdeci">C10_HOST_DEVICE C10_ALWAYS_INLINE uint32_t div_round_up(uint32_t a, uint32_t b)</div><div class="ttdef"><b>Definition</b> embedding_common.h:94</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT4_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT8_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP8_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        fp8_exponent_bits, \</div>
+<div class="line">        fp8_exponent_bias, \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP16_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP32_split_embedding_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acec51faeb0681c58de451cb9d59abe95" name="acec51faeb0681c58de451cb9d59abe95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acec51faeb0681c58de451cb9d59abe95">&#9670;&#160;</a></span>Y</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define Y</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">      <span class="keywordflow">if</span> (device_only) { \</div>
+<div class="line">        X(<span class="keyword">true</span>, __VA_ARGS__) \</div>
+<div class="line">      } <span class="keywordflow">else</span> { \</div>
+<div class="line">        X(<span class="keyword">false</span>, __VA_ARGS__) \</div>
+<div class="line">      };</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9c3b5fb374c1ef95520bc4e30b66325e" name="a9c3b5fb374c1ef95520bc4e30b66325e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c3b5fb374c1ef95520bc4e30b66325e">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html
new file mode 100644
index 000000000..b31e971d7
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html
@@ -0,0 +1,626 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT2_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">template uint8_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1240</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a6d8072fe7f1cbd1cf456e3ea8a440ad3"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:119</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a764f8ae801cd000c2a5cb4bb23f14299"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:120</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_a057f5488fcdaf454d09c4f1b25374ac9"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:101</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a0c2527424502280dfcf6276b49b41cdc"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const lxu_cache_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:58</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a17f61eb7bf7a7e4089982fbf69116da5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const uvm_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:57</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a60a1ec59d36df78e844d5cd7a0d34f03"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t const FixedDivisor const index_t *__restrict__ const const index_t *__restrict__ const const uint32_t *__restrict__ const const int64_t *__restrict__ const const int32_t *__restrict__ const lxu_cache_locations</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:69</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_ad4dd9cc51f1eccdf4626318632701868"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const weights_placements</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:59</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a112ef14feafbe22a3b70fd5ddcefcf99"><div class="ttname"><a href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu::int32_t</a></div><div class="ttdeci">indices_is_long &amp;[is_long_idx] is_long_mask int32_t</div><div class="ttdef"><b>Definition</b> input_combine.cu:73</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a1e5f0f7703057bbda166a7723b16e6ef"><div class="ttname"><a href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">fbgemm_gpu::div_round_up</a></div><div class="ttdeci">__host__ DEVICE_INLINE int32_t div_round_up(int32_t a, int32_t b)</div><div class="ttdef"><b>Definition</b> fbgemm_cuda_utils.cuh:1460</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a2bef322c4183a01bc9d8e3c084ae1d15"><div class="ttname"><a href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu::T</a></div><div class="ttdeci">__global__ const int32_t const int32_t T</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:21</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aabefe307b5a16f2e2d2c5cc6c74719b6"><div class="ttname"><a href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu::indices</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ indices</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:26</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aad33dfd216d9ea27b505a304ca3e32da"><div class="ttname"><a href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu::offsets</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ offsets</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:25</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_adb51b4975da6fe6cd1f6465b56b3b8ab"><div class="ttname"><a href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu::B</a></div><div class="ttdeci">__global__ const int32_t B</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:20</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_ae662e9187ce6364e1668803dfbf7e7d0"><div class="ttname"><a href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">fbgemm_gpu::output</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ output</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:28</div></div>
+<div class="ttc" id="anamespacenbit_html_a620ba1c7dba3e279e09759758b7a86db"><div class="ttname"><a href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a></div><div class="ttdeci">C10_HOST_DEVICE C10_ALWAYS_INLINE uint32_t div_round_up(uint32_t a, uint32_t b)</div><div class="ttdef"><b>Definition</b> embedding_common.h:94</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT4_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT8_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP8_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        fp8_exponent_bits, \</div>
+<div class="line">        fp8_exponent_bias, \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP16_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP32_split_embedding_nobag_codegen_forward_unweighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acec51faeb0681c58de451cb9d59abe95" name="acec51faeb0681c58de451cb9d59abe95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acec51faeb0681c58de451cb9d59abe95">&#9670;&#160;</a></span>Y</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define Y</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">      <span class="keywordflow">if</span> (device_only) { \</div>
+<div class="line">        X(<span class="keyword">true</span>, __VA_ARGS__) \</div>
+<div class="line">      } <span class="keywordflow">else</span> { \</div>
+<div class="line">        X(<span class="keyword">false</span>, __VA_ARGS__) \</div>
+<div class="line">      };</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9b168b9b2d002f86f7f16211b83fced0" name="a9b168b9b2d002f86f7f16211b83fced0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b168b9b2d002f86f7f16211b83fced0">&#9670;&#160;</a></span>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..440fd23e4
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html
@@ -0,0 +1,653 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT2_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name1, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name1, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">template uint8_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1240</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a6d8072fe7f1cbd1cf456e3ea8a440ad3"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:119</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a764f8ae801cd000c2a5cb4bb23f14299"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:120</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a8a3ac708f5fc38ea5ebecdbe685f3c73"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:121</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a0c2527424502280dfcf6276b49b41cdc"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const lxu_cache_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:58</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a17f61eb7bf7a7e4089982fbf69116da5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const uvm_weights</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:57</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a60a1ec59d36df78e844d5cd7a0d34f03"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t const FixedDivisor const index_t *__restrict__ const const index_t *__restrict__ const const uint32_t *__restrict__ const const int64_t *__restrict__ const const int32_t *__restrict__ const lxu_cache_locations</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:69</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_ad4dd9cc51f1eccdf4626318632701868"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const weights_placements</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:59</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a112ef14feafbe22a3b70fd5ddcefcf99"><div class="ttname"><a href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu::int32_t</a></div><div class="ttdeci">indices_is_long &amp;[is_long_idx] is_long_mask int32_t</div><div class="ttdef"><b>Definition</b> input_combine.cu:73</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a1e5f0f7703057bbda166a7723b16e6ef"><div class="ttname"><a href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">fbgemm_gpu::div_round_up</a></div><div class="ttdeci">__host__ DEVICE_INLINE int32_t div_round_up(int32_t a, int32_t b)</div><div class="ttdef"><b>Definition</b> fbgemm_cuda_utils.cuh:1460</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a2bef322c4183a01bc9d8e3c084ae1d15"><div class="ttname"><a href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu::T</a></div><div class="ttdeci">__global__ const int32_t const int32_t T</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:21</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aabefe307b5a16f2e2d2c5cc6c74719b6"><div class="ttname"><a href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu::indices</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ indices</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:26</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aad33dfd216d9ea27b505a304ca3e32da"><div class="ttname"><a href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu::offsets</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ offsets</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:25</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_adb51b4975da6fe6cd1f6465b56b3b8ab"><div class="ttname"><a href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu::B</a></div><div class="ttdeci">__global__ const int32_t B</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:20</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_ae662e9187ce6364e1668803dfbf7e7d0"><div class="ttname"><a href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">fbgemm_gpu::output</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ output</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:28</div></div>
+<div class="ttc" id="anamespacenbit_html_a620ba1c7dba3e279e09759758b7a86db"><div class="ttname"><a href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a></div><div class="ttdeci">C10_HOST_DEVICE C10_ALWAYS_INLINE uint32_t div_round_up(uint32_t a, uint32_t b)</div><div class="ttdef"><b>Definition</b> embedding_common.h:94</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT4_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name2, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name2, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::INT8_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name3, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name3, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP8_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name4, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        fp8_exponent_bits, \</div>
+<div class="line">        fp8_exponent_bias, \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name4, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP16_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name5, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name5, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae6cc33dae61d3333c3d2e6be5f9cf16e" name="ae6cc33dae61d3333c3d2e6be5f9cf16e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6cc33dae61d3333c3d2e6be5f9cf16e">&#9670;&#160;</a></span>X <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define X</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DeviceOnly, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OutputRowsPerThread, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">InputRowsInFlight, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MinNum128BRows, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MaxNum128BRows</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    nbit::FP32_split_embedding_codegen_forward_weighted_kernel_small_L&lt;index_t, output_t, OutputRowsPerThread, kWarpsPerBlock, InputRowsInFlight, MinNum128BRows, MaxNum128BRows, DeviceOnly&gt;&lt;&lt;&lt; \</div>
+<div class="line">        nbit::div_round_up(<a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> * <a class="code hl_function" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit::div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread), kWarpsPerBlock), \</div>
+<div class="line">        dim3(kWarpSize, kWarpsPerBlock), \</div>
+<div class="line">        0, \</div>
+<div class="line">        at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;( \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, weights_tys, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        FixedDivisor(<a class="code hl_function" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">div_round_up</a>(<a class="code hl_variable" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, OutputRowsPerThread)), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, index_t, 1, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, index_t, 1, 32), \</div>
+<div class="line">         \</div>
+<div class="line">        pooling_mode, \</div>
+<div class="line">         \</div>
+<div class="line">        row_alignment, \</div>
+<div class="line">         MAKE_PTA_WITH_NAME(func_name6, indice_weights, <span class="keywordtype">float</span>, 1, 32),  \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">output</a>, output_t, 2, 32), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, 64), \</div>
+<div class="line">        MAKE_PTA_WITH_NAME(func_name6, <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="code hl_variable" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1, 32) \</div>
+<div class="line">    ); \</div>
+<div class="line">    C10_CUDA_KERNEL_LAUNCH_CHECK(); \</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acec51faeb0681c58de451cb9d59abe95" name="acec51faeb0681c58de451cb9d59abe95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acec51faeb0681c58de451cb9d59abe95">&#9670;&#160;</a></span>Y</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define Y</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">      <span class="keywordflow">if</span> (device_only) { \</div>
+<div class="line">        X(<span class="keyword">true</span>, __VA_ARGS__) \</div>
+<div class="line">      } <span class="keywordflow">else</span> { \</div>
+<div class="line">        X(<span class="keyword">false</span>, __VA_ARGS__) \</div>
+<div class="line">      };</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae65cbb34f3d373fe3e12b7bb899c1b10" name="ae65cbb34f3d373fe3e12b7bb899c1b10"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae65cbb34f3d373fe3e12b7bb899c1b10">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html
new file mode 100644
index 000000000..11e6121ec
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html
new file mode 100644
index 000000000..6855f5186
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..0b91c2e18
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html
new file mode 100644
index 000000000..98529bc4d
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html
new file mode 100644
index 000000000..9842befa9
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..bbb165d52
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html
new file mode 100644
index 000000000..4a068bf37
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html
new file mode 100644
index 000000000..02e9e3f1e
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..0a367b90d
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html
new file mode 100644
index 000000000..841149cae
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html
new file mode 100644
index 000000000..cc37d4507
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..89b3ebaa4
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html
new file mode 100644
index 000000000..f9351a858
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html
new file mode 100644
index 000000000..b7c043047
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..a0d8c4249
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html
new file mode 100644
index 000000000..374aceddf
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html
new file mode 100644
index 000000000..c14c44c06
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html
new file mode 100644
index 000000000..2ae1430d3
--- /dev/null
+++ b/gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacenbit" id="r_namespacenbit"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacenbit.html">nbit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html b/gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html
new file mode 100644
index 000000000..c2c0b2ee6
--- /dev/null
+++ b/gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Context.h&gt;</code><br />
+<code>#include &lt;ATen/Parallel.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;cstring&gt;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a718e1ac4e0fa56a96e666ee2d5a5c40a" name="a718e1ac4e0fa56a96e666ee2d5a5c40a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a718e1ac4e0fa56a96e666ee2d5a5c40a">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6ae7551f9cd9d5cdb845240887aeaa1" name="ab6ae7551f9cd9d5cdb845240887aeaa1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6ae7551f9cd9d5cdb845240887aeaa1">&#9670;&#160;</a></span>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html b/gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html
new file mode 100644
index 000000000..84e5028ee
--- /dev/null
+++ b/gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html
@@ -0,0 +1,250 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_quantized_weighted_codegen_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Context.h&gt;</code><br />
+<code>#include &lt;ATen/Parallel.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cpu__utils_8h.html">fbgemm_gpu/cpu_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;fbgemm/FbgemmEmbedding.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;cstring&gt;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a5a1cc170a745f03faefac536cfcbf1e6" name="a5a1cc170a745f03faefac536cfcbf1e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1cc170a745f03faefac536cfcbf1e6">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_forward_weighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_forward_weighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a446403a1c26f7fecbc1c67fd9be87bf0" name="a446403a1c26f7fecbc1c67fd9be87bf0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a446403a1c26f7fecbc1c67fd9be87bf0">&#9670;&#160;</a></span>pruned_hashmap_insert_weighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void pruned_hashmap_insert_weighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dense_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0d1d716d565d7e70bd253dcd89d7f47" name="ae0d1d716d565d7e70bd253dcd89d7f47"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0d1d716d565d7e70bd253dcd89d7f47">&#9670;&#160;</a></span>pruned_hashmap_lookup_weighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> pruned_hashmap_lookup_weighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html b/gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..0fbdc7eb0
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html
@@ -0,0 +1,588 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">false</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">false</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">true</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">true</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab08dd38a042ee1b012a6db152e28df6d" name="ab08dd38a042ee1b012a6db152e28df6d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab08dd38a042ee1b012a6db152e28df6d">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool use_lxu_cache&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc6855d69e1817ffa8c28948673c7b0b" name="abc6855d69e1817ffa8c28948673c7b0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc6855d69e1817ffa8c28948673c7b0b">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d1a75d11b80a3b6735993fc34eb067e" name="a0d1a75d11b80a3b6735993fc34eb067e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d1a75d11b80a3b6735993fc34eb067e">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a240b4e029c521f922d447346c8b757b8" name="a240b4e029c521f922d447346c8b757b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240b4e029c521f922d447346c8b757b8">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a723eb6856253bb4551265a356dd5f35d" name="a723eb6856253bb4551265a356dd5f35d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a723eb6856253bb4551265a356dd5f35d">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a300401a48c1b4c0d98e372a4293da2" name="a4a300401a48c1b4c0d98e372a4293da2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a300401a48c1b4c0d98e372a4293da2">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2d7f9971f231260d0da708ce6bf6c179" name="a2d7f9971f231260d0da708ce6bf6c179"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d7f9971f231260d0da708ce6bf6c179">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60a1ec59d36df78e844d5cd7a0d34f03" name="a60a1ec59d36df78e844d5cd7a0d34f03"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60a1ec59d36df78e844d5cd7a0d34f03">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c2527424502280dfcf6276b49b41cdc" name="a0c2527424502280dfcf6276b49b41cdc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c2527424502280dfcf6276b49b41cdc">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a179f256aa33ee3f02b437129f3186a4c" name="a179f256aa33ee3f02b437129f3186a4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a179f256aa33ee3f02b437129f3186a4c">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7749446d7c1da86adc5b7c06dcc7817" name="aa7749446d7c1da86adc5b7c06dcc7817"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7749446d7c1da86adc5b7c06dcc7817">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc0762ff936d64a73eef3c78b9585024" name="afc0762ff936d64a73eef3c78b9585024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc0762ff936d64a73eef3c78b9585024">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8cb737489e5e5b8dc4db6de0b9c96a6f" name="a8cb737489e5e5b8dc4db6de0b9c96a6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8cb737489e5e5b8dc4db6de0b9c96a6f">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2ee4b3e799d56c4d34c87190c37a7a64" name="a2ee4b3e799d56c4d34c87190c37a7a64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ee4b3e799d56c4d34c87190c37a7a64">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17f61eb7bf7a7e4089982fbf69116da5" name="a17f61eb7bf7a7e4089982fbf69116da5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17f61eb7bf7a7e4089982fbf69116da5">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f15527d585dd62a23511c2f0bad4ca7" name="a9f15527d585dd62a23511c2f0bad4ca7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f15527d585dd62a23511c2f0bad4ca7">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad4dd9cc51f1eccdf4626318632701868" name="ad4dd9cc51f1eccdf4626318632701868"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4dd9cc51f1eccdf4626318632701868">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html b/gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html
new file mode 100644
index 000000000..0f59ba9c8
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html
@@ -0,0 +1,274 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2b7fe88621ffc9b8dc0b55efafb6cb83" name="a2b7fe88621ffc9b8dc0b55efafb6cb83"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b7fe88621ffc9b8dc0b55efafb6cb83">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a580b1b950402848a3c71d7092a69ceb7" name="a580b1b950402848a3c71d7092a69ceb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a580b1b950402848a3c71d7092a69ceb7">&#9670;&#160;</a></span>split_embedding_nobag_codegen_forward_unweighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_nobag_codegen_forward_unweighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__kernel_8cu.html b/gen__embedding__forward__split__unweighted__kernel_8cu.html
new file mode 100644
index 000000000..7eeaa4072
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__kernel_8cu.html
@@ -0,0 +1,1063 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a41deb3b48278a02504f49a2a3dc15cd8" name="a41deb3b48278a02504f49a2a3dc15cd8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a41deb3b48278a02504f49a2a3dc15cd8">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , bool use_lxu_cache, typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ea0ab17f6d9eefd8f00e171c4d8b424" name="a5ea0ab17f6d9eefd8f00e171c4d8b424"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ea0ab17f6d9eefd8f00e171c4d8b424">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adfec29a5a30407f3b60408b80419baac" name="adfec29a5a30407f3b60408b80419baac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfec29a5a30407f3b60408b80419baac">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0566524005bbfc2c27eac06fe4ebe955" name="a0566524005bbfc2c27eac06fe4ebe955"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0566524005bbfc2c27eac06fe4ebe955">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a51028935eee6951c1298eb5d7092d650" name="a51028935eee6951c1298eb5d7092d650"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a51028935eee6951c1298eb5d7092d650">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a93ac400107836c0de2730e3a54959ed6" name="a93ac400107836c0de2730e3a54959ed6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93ac400107836c0de2730e3a54959ed6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e17c23a544e4b4ebaf07d215ece084f" name="a0e17c23a544e4b4ebaf07d215ece084f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e17c23a544e4b4ebaf07d215ece084f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ea57f49a9d1efbc601b256ec5d13107" name="a5ea57f49a9d1efbc601b256ec5d13107"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ea57f49a9d1efbc601b256ec5d13107">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0277f9514d8b9668290fe078c5ad155b" name="a0277f9514d8b9668290fe078c5ad155b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0277f9514d8b9668290fe078c5ad155b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5da4584d7767e8c488e4e29780c3aadc" name="a5da4584d7767e8c488e4e29780c3aadc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5da4584d7767e8c488e4e29780c3aadc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad9e0f41f3ef8ca4cd788578980ccd083" name="ad9e0f41f3ef8ca4cd788578980ccd083"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad9e0f41f3ef8ca4cd788578980ccd083">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2cae6fdef6f90d98293e7e6f2eda2138" name="a2cae6fdef6f90d98293e7e6f2eda2138"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cae6fdef6f90d98293e7e6f2eda2138">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a254bf4fa577be3f3edb7bf1dc9339295" name="a254bf4fa577be3f3edb7bf1dc9339295"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a254bf4fa577be3f3edb7bf1dc9339295">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea91359dc803899d522a74120b6d587c" name="aea91359dc803899d522a74120b6d587c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea91359dc803899d522a74120b6d587c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a0ad31f76c1f9349ef8b21ca138e897cc" name="a0ad31f76c1f9349ef8b21ca138e897cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ad31f76c1f9349ef8b21ca138e897cc">&#9670;&#160;</a></span>false</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5baa8672e7ddf3cefb150e4660d86a" name="acc5baa8672e7ddf3cefb150e4660d86a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5baa8672e7ddf3cefb150e4660d86a">&#9670;&#160;</a></span>true</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html b/gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html
new file mode 100644
index 000000000..fb3979f62
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html
@@ -0,0 +1,1003 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_nobag_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_nobag_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9b1f7936d16c021a06b52e10047d17c9" name="a9b1f7936d16c021a06b52e10047d17c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b1f7936d16c021a06b52e10047d17c9">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , bool use_lxu_cache, typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae658cdd019bf968ffa65e519118af108" name="ae658cdd019bf968ffa65e519118af108"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae658cdd019bf968ffa65e519118af108">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af585b19bb7928041ac8b70d56c7d6f1a" name="af585b19bb7928041ac8b70d56c7d6f1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af585b19bb7928041ac8b70d56c7d6f1a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c3130a42a235a75553eaf160ac657dc" name="a8c3130a42a235a75553eaf160ac657dc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c3130a42a235a75553eaf160ac657dc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a95cb4e2cdf49f5f5ba2f9a2acf3ff32d" name="a95cb4e2cdf49f5f5ba2f9a2acf3ff32d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95cb4e2cdf49f5f5ba2f9a2acf3ff32d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0209c0fd938024beedd0716523eaa090" name="a0209c0fd938024beedd0716523eaa090"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0209c0fd938024beedd0716523eaa090">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9461df0509fec5e584eaa309acb4e0ea" name="a9461df0509fec5e584eaa309acb4e0ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9461df0509fec5e584eaa309acb4e0ea">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad69828fa35cf5312392a5791a435ac3f" name="ad69828fa35cf5312392a5791a435ac3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad69828fa35cf5312392a5791a435ac3f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4876b4f94d323f090efef96432fc27a0" name="a4876b4f94d323f090efef96432fc27a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4876b4f94d323f090efef96432fc27a0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1c7d35447c029aba8ddce8e9532a8d82" name="a1c7d35447c029aba8ddce8e9532a8d82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1c7d35447c029aba8ddce8e9532a8d82">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f68f3297710141bc57e677b3d0587ce" name="a0f68f3297710141bc57e677b3d0587ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f68f3297710141bc57e677b3d0587ce">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae5b51047bc4a0305b636290e7ddb278a" name="ae5b51047bc4a0305b636290e7ddb278a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5b51047bc4a0305b636290e7ddb278a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3262dbb14f77bf739b020bdf79075384" name="a3262dbb14f77bf739b020bdf79075384"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3262dbb14f77bf739b020bdf79075384">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a568c659233485f309357ee134d1b748f" name="a568c659233485f309357ee134d1b748f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a568c659233485f309357ee134d1b748f">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a0ad31f76c1f9349ef8b21ca138e897cc" name="a0ad31f76c1f9349ef8b21ca138e897cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ad31f76c1f9349ef8b21ca138e897cc">&#9670;&#160;</a></span>false</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5baa8672e7ddf3cefb150e4660d86a" name="acc5baa8672e7ddf3cefb150e4660d86a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5baa8672e7ddf3cefb150e4660d86a">&#9670;&#160;</a></span>true</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html b/gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html
new file mode 100644
index 000000000..93eedfc1d
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html
@@ -0,0 +1,337 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_nobag_kernel_small.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af345685cdddd68d8304b0804863bc611" name="af345685cdddd68d8304b0804863bc611"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af345685cdddd68d8304b0804863bc611">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c26c8149d8b4a96823082303a657531" name="a4c26c8149d8b4a96823082303a657531"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c26c8149d8b4a96823082303a657531">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a952bac18af6443873547ada58c1e9f82" name="a952bac18af6443873547ada58c1e9f82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a952bac18af6443873547ada58c1e9f82">&#9670;&#160;</a></span>D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> D</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac251990f6a37927ea6f8c58584ec7a4c" name="ac251990f6a37927ea6f8c58584ec7a4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac251990f6a37927ea6f8c58584ec7a4c">&#9670;&#160;</a></span>dev_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; dev_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b3d6f3af7d65ed111be48db11a4cc24" name="a6b3d6f3af7d65ed111be48db11a4cc24"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b3d6f3af7d65ed111be48db11a4cc24">&#9670;&#160;</a></span>fd_B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac6808dbd8c1563373cd2bf230c07e283" name="ac6808dbd8c1563373cd2bf230c07e283"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6808dbd8c1563373cd2bf230c07e283">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c502d4dedd432c8940a937269071ddc" name="a3c502d4dedd432c8940a937269071ddc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c502d4dedd432c8940a937269071ddc">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d665aaf5a0d98bca13be6c158653005" name="a1d665aaf5a0d98bca13be6c158653005"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d665aaf5a0d98bca13be6c158653005">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab1af2e6ba28faa781f71e91f2347d43" name="aab1af2e6ba28faa781f71e91f2347d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab1af2e6ba28faa781f71e91f2347d43">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a511b9e94b01de29a6671f16533eaf6dd" name="a511b9e94b01de29a6671f16533eaf6dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a511b9e94b01de29a6671f16533eaf6dd">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits&gt; output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45c4a9176e8f636d292288647fdeff77" name="a45c4a9176e8f636d292288647fdeff77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45c4a9176e8f636d292288647fdeff77">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d1fc13d818566d961fdf0fd44612dbb" name="a7d1fc13d818566d961fdf0fd44612dbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d1fc13d818566d961fdf0fd44612dbb">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a841e0386a10dcd6aa2fce96a7880b8" name="a9a841e0386a10dcd6aa2fce96a7880b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a841e0386a10dcd6aa2fce96a7880b8">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const pta::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__v2__kernel_8cu.html b/gen__embedding__forward__split__unweighted__v2__kernel_8cu.html
new file mode 100644
index 000000000..9bd71c18d
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__v2__kernel_8cu.html
@@ -0,0 +1,3605 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_v2_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_v2_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type.html">Vec4Type&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ada15471a8b1da6a3a43b940916fea71e" name="ada15471a8b1da6a3a43b940916fea71e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada15471a8b1da6a3a43b940916fea71e">&#9670;&#160;</a></span>ACC_ADD_OR_FMA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define ACC_ADD_OR_FMA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_WEIGHT</span>&#160;)&#160;&#160;&#160;  accumulator.add(WEIGHT);</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f2b77785cbc55639ba4e4874a65426c" name="a0f2b77785cbc55639ba4e4874a65426c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f2b77785cbc55639ba4e4874a65426c">&#9670;&#160;</a></span>DIV_ROUND_UP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DIV_ROUND_UP</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">numer, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">denom</span>&#160;)&#160;&#160;&#160;((numer + denom - 1) / denom)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acaeccb7e2e5908cef08556661b7a6f44" name="acaeccb7e2e5908cef08556661b7a6f44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acaeccb7e2e5908cef08556661b7a6f44">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    <span class="keywordflow">if</span> (<a class="code hl_variable" href="#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a>) { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">true</span>, __VA_ARGS__); \</div>
+<div class="line">    } \</div>
+<div class="line">    <span class="keywordflow">else</span> { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">false</span>, __VA_ARGS__); \</div>
+<div class="line">    }</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aa7b80f1189d1874ab861378ed299a21e"><div class="ttname"><a href="#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a></div><div class="ttdeci">bool use_lxu_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:746</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a65e818853d870f84ef24b703b0e02618" name="a65e818853d870f84ef24b703b0e02618"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65e818853d870f84ef24b703b0e02618">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES_HELPER</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES_HELPER</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">USE_CACHE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">KERNEL_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TAIL_WARP_SIZE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">STEP_MASK</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    process_all_indices_## KERNEL_TYPE&lt; \</div>
+<div class="line">      index_t, \</div>
+<div class="line">      emb_t, \</div>
+<div class="line">      emb_vec_t, \</div>
+<div class="line">      cache_t, \</div>
+<div class="line">      <a class="code hl_typedef" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>, \</div>
+<div class="line">      <a class="code hl_typedef" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a>, \</div>
+<div class="line">      USE_CACHE, \</div>
+<div class="line">      USE_CACHE &amp;&amp; !std::is_same&lt;emb_t, cache_t&gt;::value, \</div>
+<div class="line">      <a class="code hl_variable" href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> * <a class="code hl_variable" href="#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a>, \</div>
+<div class="line">      <a class="code hl_variable" href="#aad5a825be51026d8249ffccad954dbb5">STEP</a>, \</div>
+<div class="line">      STEP_MASK, \</div>
+<div class="line">      TAIL_WARP_SIZE \</div>
+<div class="line">    &gt;( \</div>
+<div class="line">        <a class="code hl_variable" href="#a843d0aea30f5cc9663eb720c3dd003ce">smem</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a67824ecf84f5816f07b74fa956bdbcd2">L</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a6aa5afd375a88f7cb364118fde074739">load_d</a> + (threadIdx.x % TAIL_WARP_SIZE) &lt; <a class="code hl_variable" href="#a016decd4d08ff2700a397621aff0cd67">load_D</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a3fdf1a4014f7660a86139d200368f74f">mean_pooling</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a02bec57c3d9431edc5aba7767412fada">params_offset</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a5c99f8e3e9c924534ce3075312e4b34a">max_D_cache</a>)</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a016decd4d08ff2700a397621aff0cd67"><div class="ttname"><a href="#a016decd4d08ff2700a397621aff0cd67">load_D</a></div><div class="ttdeci">uint32_t load_D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:724</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a02bec57c3d9431edc5aba7767412fada"><div class="ttname"><a href="#a02bec57c3d9431edc5aba7767412fada">params_offset</a></div><div class="ttdeci">const uint32_t params_offset</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:674</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a3fdf1a4014f7660a86139d200368f74f"><div class="ttname"><a href="#a3fdf1a4014f7660a86139d200368f74f">mean_pooling</a></div><div class="ttdeci">const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool mean_pooling</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:656</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a46b036c211c222352709e6bb2420878d"><div class="ttname"><a href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a></div><div class="ttdeci">vec4_type&lt; output_t &gt; output_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:667</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a586264efd35f61c1e5b73ab1fd4f87a5"><div class="ttname"><a href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a></div><div class="ttdeci">constexpr uint32_t NUM_PARAMS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:671</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a5c99f8e3e9c924534ce3075312e4b34a"><div class="ttname"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">max_D_cache</a></div><div class="ttdeci">const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t max_D_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:657</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a6394626e129b23b47a8e900179ea1a98"><div class="ttname"><a href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a></div><div class="ttdeci">vec4_type&lt; cache_t &gt; cache_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:666</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a67824ecf84f5816f07b74fa956bdbcd2"><div class="ttname"><a href="#a67824ecf84f5816f07b74fa956bdbcd2">L</a></div><div class="ttdeci">uint32_t L</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:744</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a6aa5afd375a88f7cb364118fde074739"><div class="ttname"><a href="#a6aa5afd375a88f7cb364118fde074739">load_d</a></div><div class="ttdeci">const uint32_t load_d</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:741</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a843d0aea30f5cc9663eb720c3dd003ce"><div class="ttname"><a href="#a843d0aea30f5cc9663eb720c3dd003ce">smem</a></div><div class="ttdeci">__shared__ long smem[NUM_PARAMS *NUM_WARPS+kForwardMaxThreads]</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:673</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aad5a825be51026d8249ffccad954dbb5"><div class="ttname"><a href="#aad5a825be51026d8249ffccad954dbb5">STEP</a></div><div class="ttdeci">constexpr uint32_t STEP</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:672</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_aef84dc9fc9b8afa43b8fed4684630167"><div class="ttname"><a href="#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a></div><div class="ttdeci">constexpr uint32_t NUM_WARPS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:669</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a9e947cce4a2cf3d4f94feeaf6024a3e3" name="a9e947cce4a2cf3d4f94feeaf6024a3e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e947cce4a2cf3d4f94feeaf6024a3e3">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f5221b4fcc0397e5c260e567afd000f" name="a8f5221b4fcc0397e5c260e567afd000f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f5221b4fcc0397e5c260e567afd000f">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a741fa81333f21f397dd7bcb524345f77" name="a741fa81333f21f397dd7bcb524345f77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a741fa81333f21f397dd7bcb524345f77">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a240239b93a27d2333aba0661096e3f2f" name="a240239b93a27d2333aba0661096e3f2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240239b93a27d2333aba0661096e3f2f">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82d4ccecee745b4cadb5d2d04e986efc" name="a82d4ccecee745b4cadb5d2d04e986efc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82d4ccecee745b4cadb5d2d04e986efc">&#9670;&#160;</a></span>SMEM_GENERIC_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_GENERIC_PTR&#160;&#160;&#160;<a class="el" href="#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(uintptr_t*)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c92b1dfe0de84f52323da3897cb0bb4" name="a5c92b1dfe0de84f52323da3897cb0bb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c92b1dfe0de84f52323da3897cb0bb4">&#9670;&#160;</a></span>SMEM_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? j : ((threadIdx.x / LOAD_GROUP_SIZE) + (j * NUM_LOAD_GROUPS)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aec0d9a647d3bde05780ff426af9ebf45" name="aec0d9a647d3bde05780ff426af9ebf45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec0d9a647d3bde05780ff426af9ebf45">&#9670;&#160;</a></span>SMEM_PTR_BASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_PTR_BASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE</span></td><td>)</td>
+          <td>&#160;&#160;&#160;  (reinterpret_cast&lt;TYPE&gt;(<a class="el" href="#a843d0aea30f5cc9663eb720c3dd003ce">smem</a> + WEIGHT_PTR_OFFSET) + threadIdx.y * <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e90593b9eb03be49ddd5e3e5473f0b5" name="a1e90593b9eb03be49ddd5e3e5473f0b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e90593b9eb03be49ddd5e3e5473f0b5">&#9670;&#160;</a></span>WEIGHT_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define WEIGHT_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? threadIdx.x : (threadIdx.x % LOAD_GROUP_SIZE))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="a6394626e129b23b47a8e900179ea1a98" name="a6394626e129b23b47a8e900179ea1a98"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6394626e129b23b47a8e900179ea1a98">&#9670;&#160;</a></span>cache_vec_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> = <a class="el" href="#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a>&lt;cache_t&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46b036c211c222352709e6bb2420878d" name="a46b036c211c222352709e6bb2420878d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46b036c211c222352709e6bb2420878d">&#9670;&#160;</a></span>output_vec_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a> = <a class="el" href="#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a>&lt;output_t&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58da2e6e124bd5725ddbf144b36921f5" name="a58da2e6e124bd5725ddbf144b36921f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58da2e6e124bd5725ddbf144b36921f5">&#9670;&#160;</a></span>vec4_type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a> = typename <a class="el" href="struct_vec4_type.html">Vec4Type</a>&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>&gt;::type</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Enumeration Type Documentation</h2>
+<a id="ad863bc0421e111195e2ac11c7ad2071d" name="ad863bc0421e111195e2ac11c7ad2071d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad863bc0421e111195e2ac11c7ad2071d">&#9670;&#160;</a></span>LXU_CACHE_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="#ad863bc0421e111195e2ac11c7ad2071d">LXU_CACHE_PARAMS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0" name="ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0"></a>P_lxu_cache_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c" name="ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c"></a>P_lxu_cache_locations&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aa8c3f67d852b0552ccbe30a899cd4c54" name="aa8c3f67d852b0552ccbe30a899cd4c54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8c3f67d852b0552ccbe30a899cd4c54">&#9670;&#160;</a></span>SAVED_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="#aa8c3f67d852b0552ccbe30a899cd4c54">SAVED_PARAMS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20" name="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20"></a>P_indices&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52" name="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52"></a>P_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da" name="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da"></a>P_outputs&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029" name="aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029"></a>P_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144" name="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144"></a>P_num_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834" name="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834"></a>P_load_D&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2" name="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2"></a>P_total_load_D&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a98033ae44aee4b9db7201fdad50c28db" name="a98033ae44aee4b9db7201fdad50c28db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98033ae44aee4b9db7201fdad50c28db">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool USE_LXU_CACHE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a640269bb96d2014f8c117163f09d8228" name="a640269bb96d2014f8c117163f09d8228"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a640269bb96d2014f8c117163f09d8228">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a31faa05b32d14aec34e66800b6092329" name="a31faa05b32d14aec34e66800b6092329"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a31faa05b32d14aec34e66800b6092329">&#9670;&#160;</a></span>DivMod()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">fd_num_warps_per_table</a> DivMod </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a53d1bd761ca2346d5b9bcc60d1c43be6">global_warp_id</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&amp;</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&amp;</td>          <td class="paramname"><span class="paramname"><em>table_warp_id</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c3c6fbc30353d25b4ada5dba7ed9ad3" name="a0c3c6fbc30353d25b4ada5dba7ed9ad3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c3c6fbc30353d25b4ada5dba7ed9ad3">&#9670;&#160;</a></span>false() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a39a233002f8c2aadb3206424d3cf33ed" name="a39a233002f8c2aadb3206424d3cf33ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a39a233002f8c2aadb3206424d3cf33ed">&#9670;&#160;</a></span>false() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f19e545f5c45f11ee4c5898decb994c" name="a8f19e545f5c45f11ee4c5898decb994c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f19e545f5c45f11ee4c5898decb994c">&#9670;&#160;</a></span>false() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff4f86de443efa79fda96f93b78b26d4" name="aff4f86de443efa79fda96f93b78b26d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff4f86de443efa79fda96f93b78b26d4">&#9670;&#160;</a></span>false() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e71bf5354b291e99138e5b51a2c8987" name="a5e71bf5354b291e99138e5b51a2c8987"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e71bf5354b291e99138e5b51a2c8987">&#9670;&#160;</a></span>false() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16040890e0367b0669f51c05b4715ecd" name="a16040890e0367b0669f51c05b4715ecd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16040890e0367b0669f51c05b4715ecd">&#9670;&#160;</a></span>false() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaaa117179cc47a2a2fbdb86da6066081" name="aaaa117179cc47a2a2fbdb86da6066081"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaaa117179cc47a2a2fbdb86da6066081">&#9670;&#160;</a></span>false() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a678e19ebc31d391a2101878805cfec04" name="a678e19ebc31d391a2101878805cfec04"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a678e19ebc31d391a2101878805cfec04">&#9670;&#160;</a></span>false() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c5c41f01ea1d775126bc194e1e95ecc" name="a8c5c41f01ea1d775126bc194e1e95ecc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c5c41f01ea1d775126bc194e1e95ecc">&#9670;&#160;</a></span>false() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54d26a841bc71bb0c9fdcb2f657d3058" name="a54d26a841bc71bb0c9fdcb2f657d3058"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54d26a841bc71bb0c9fdcb2f657d3058">&#9670;&#160;</a></span>false() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a71b5f71e99a903571a45d1bfb5dd6537" name="a71b5f71e99a903571a45d1bfb5dd6537"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71b5f71e99a903571a45d1bfb5dd6537">&#9670;&#160;</a></span>false() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a311bf35bff79e995c3e6d7d2e6a69952" name="a311bf35bff79e995c3e6d7d2e6a69952"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a311bf35bff79e995c3e6d7d2e6a69952">&#9670;&#160;</a></span>false() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7cc9e1627beb86ecc866da06957e0fff" name="a7cc9e1627beb86ecc866da06957e0fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cc9e1627beb86ecc866da06957e0fff">&#9670;&#160;</a></span>get_next_bag_boundary_and_L()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOWER_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void get_next_bag_boundary_and_L </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a49e7c05f68f0175f3c44c6b1c12c5117" name="a49e7c05f68f0175f3c44c6b1c12c5117"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49e7c05f68f0175f3c44c6b1c12c5117">&#9670;&#160;</a></span>if() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a> &amp;&amp;<a class="el" href="#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> &gt;=<a class="el" href="#a1df1c715b5de4bbc9d9d9a5d78122a92">num_warps_for_small_L</a> *</td>          <td class="paramname"><span class="paramname"><em>8</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ab8250d245b6612c02d934b63fdcd52" name="a4ab8250d245b6612c02d934b63fdcd52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ab8250d245b6612c02d934b63fdcd52">&#9670;&#160;</a></span>if() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a37c3fe73e60868097d45b151e9c4a430" name="a37c3fe73e60868097d45b151e9c4a430"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a37c3fe73e60868097d45b151e9c4a430">&#9670;&#160;</a></span>if() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ac5d11523cb9e630706dead6e236d9385">is_zero_total_L</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa19ed116a2acf1b1ef0527b77b3d4ec" name="aaa19ed116a2acf1b1ef0527b77b3d4ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa19ed116a2acf1b1ef0527b77b3d4ec">&#9670;&#160;</a></span>if() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a67824ecf84f5816f07b74fa956bdbcd2">L</a>&lt;=</td>          <td class="paramname"><span class="paramname"><em>1</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6822b01edff1e16c53f21b0c6142ffd" name="af6822b01edff1e16c53f21b0c6142ffd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6822b01edff1e16c53f21b0c6142ffd">&#9670;&#160;</a></span>if() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a618af795eb1829b78b342e084130e1f4" name="a618af795eb1829b78b342e084130e1f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a618af795eb1829b78b342e084130e1f4">&#9670;&#160;</a></span>if() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a886f5e3baf03935340ae10c910916eb9">t</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>T</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a509435224d0201170dbceeef2d47698f" name="a509435224d0201170dbceeef2d47698f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a509435224d0201170dbceeef2d47698f">&#9670;&#160;</a></span>if() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> &gt;=<a class="el" href="#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a> *</td>          <td class="paramname"><span class="paramname">is_small_L ? num_warps_for_small_L :B</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1958ec7365ff8575f7973e15353c0121" name="a1958ec7365ff8575f7973e15353c0121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1958ec7365ff8575f7973e15353c0121">&#9670;&#160;</a></span>if() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype">threadIdx.</td>          <td class="paramname"><span class="paramname"><em>x</em><span class="paramdefsep"> = </span><span class="paramdefval">=&#160;0</span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad4f576c80cbb86fce55f5420968bc826" name="ad4f576c80cbb86fce55f5420968bc826"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4f576c80cbb86fce55f5420968bc826">&#9670;&#160;</a></span>process_all_indices_large_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_large_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02fb6083bc1f3a1c39dabb7818866a46" name="a02fb6083bc1f3a1c39dabb7818866a46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02fb6083bc1f3a1c39dabb7818866a46">&#9670;&#160;</a></span>process_all_indices_no_pooling()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename <a class="el" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void process_all_indices_no_pooling </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a871fb6b516157e559e3ed26b56e4245c" name="a871fb6b516157e559e3ed26b56e4245c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a871fb6b516157e559e3ed26b56e4245c">&#9670;&#160;</a></span>process_all_indices_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>total_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6f0a4b5648537896b38264e4d38f9aa" name="ab6f0a4b5648537896b38264e4d38f9aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6f0a4b5648537896b38264e4d38f9aa">&#9670;&#160;</a></span>true() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9c2ae1d1bfa19b2caadbc8e76c32697c" name="a9c2ae1d1bfa19b2caadbc8e76c32697c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c2ae1d1bfa19b2caadbc8e76c32697c">&#9670;&#160;</a></span>true() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa74dcf7a765d22c0b1ec49310c9a04b3" name="aa74dcf7a765d22c0b1ec49310c9a04b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa74dcf7a765d22c0b1ec49310c9a04b3">&#9670;&#160;</a></span>true() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16cf98f36e41cdcacdb6dabac0b258e0" name="a16cf98f36e41cdcacdb6dabac0b258e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16cf98f36e41cdcacdb6dabac0b258e0">&#9670;&#160;</a></span>true() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af605abd85d3cc9e6dca40ea687104f6e" name="af605abd85d3cc9e6dca40ea687104f6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af605abd85d3cc9e6dca40ea687104f6e">&#9670;&#160;</a></span>true() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8de160ae737c50e86160493247817870" name="a8de160ae737c50e86160493247817870"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8de160ae737c50e86160493247817870">&#9670;&#160;</a></span>true() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ec2bf37e5db917feed838745ed81985" name="a9ec2bf37e5db917feed838745ed81985"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ec2bf37e5db917feed838745ed81985">&#9670;&#160;</a></span>true() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d5bd72dd7f6e6c6b0a50b2070e74f45" name="a3d5bd72dd7f6e6c6b0a50b2070e74f45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d5bd72dd7f6e6c6b0a50b2070e74f45">&#9670;&#160;</a></span>true() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1aa60c6099666e18389fa1e982910986" name="a1aa60c6099666e18389fa1e982910986"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1aa60c6099666e18389fa1e982910986">&#9670;&#160;</a></span>true() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5649e552b4b7bb69095114018ba395fb" name="a5649e552b4b7bb69095114018ba395fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5649e552b4b7bb69095114018ba395fb">&#9670;&#160;</a></span>true() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e7e3a44299ea276cb2e5f5082977777" name="a1e7e3a44299ea276cb2e5f5082977777"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e7e3a44299ea276cb2e5f5082977777">&#9670;&#160;</a></span>true() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; at template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a06d07c66722a850f758f54932d3dbe17" name="a06d07c66722a850f758f54932d3dbe17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06d07c66722a850f758f54932d3dbe17">&#9670;&#160;</a></span>true() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a784fce39007138a17294839676673bde" name="a784fce39007138a17294839676673bde"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a784fce39007138a17294839676673bde">&#9670;&#160;</a></span>write_loop_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename <a class="el" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> BOUNDARY_IDX_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void write_loop_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>write_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a>&lt; <a class="el" href="#aad5a825be51026d8249ffccad954dbb5">STEP</a>, emb_t &gt; *const</td>          <td class="paramname"><span class="paramname"><em>accumulator</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>l</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ad0a8e9e782f3a3f177d6791f9ee9b866" name="ad0a8e9e782f3a3f177d6791f9ee9b866"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0a8e9e782f3a3f177d6791f9ee9b866">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83bdb6901e840002ec04521cd2fcafe6" name="a83bdb6901e840002ec04521cd2fcafe6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83bdb6901e840002ec04521cd2fcafe6">&#9670;&#160;</a></span>b</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> b = <a class="el" href="#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> / <a class="el" href="#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a> * (<a class="el" href="#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a> ? <a class="el" href="#a507523ed27f39808542bbb3b9c1382af">NUM_OFFSETS_PER_WARP</a> : 1)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e9016830b84a13779c14bb73acce5b1" name="a1e9016830b84a13779c14bb73acce5b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e9016830b84a13779c14bb73acce5b1">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aede9588b11147ebb6a17d9672563737c" name="aede9588b11147ebb6a17d9672563737c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aede9588b11147ebb6a17d9672563737c">&#9670;&#160;</a></span>D_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> D_start</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0544c3fe466e421738dae463968b70ba" name="a0544c3fe466e421738dae463968b70ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0544c3fe466e421738dae463968b70ba">&#9670;&#160;</a></span>else</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">else</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line"> </div>
+<div class="line">    }</div>
+<div class="line">    </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line">}</div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"> </div>
+<div class="line"><span class="keyword">template</span> <a class="code hl_function" href="#a98033ae44aee4b9db7201fdad50c28db">__launch_bounds__</a>(<a class="code hl_variable" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048 / <a class="code hl_variable" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>)</div>
+<div class="line">__global__ <span class="keywordtype">void</span> split_embedding_codegen_forward_unweighted_v2_kernel</div>
+<div class="line">&lt;</div>
+<div class="line">    <a class="code hl_variable" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div>
+<div class="ttc" id="aembedding__forward__template__helpers_8cuh_html_ac9909b6865afc4a3e07fabe1ed204459"><div class="ttname"><a href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></div><div class="ttdeci">constexpr size_t kForwardMaxThreads</div><div class="ttdef"><b>Definition</b> embedding_forward_template_helpers.cuh:43</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a1360e7840ee58417b26bf9445f94c59d"><div class="ttname"><a href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></div><div class="ttdeci">uint8_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:904</div></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a98033ae44aee4b9db7201fdad50c28db"><div class="ttname"><a href="#a98033ae44aee4b9db7201fdad50c28db">__launch_bounds__</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a91261c861a9c2e7ff7936dba196c034e" name="a91261c861a9c2e7ff7936dba196c034e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91261c861a9c2e7ff7936dba196c034e">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53d1bd761ca2346d5b9bcc60d1c43be6" name="a53d1bd761ca2346d5b9bcc60d1c43be6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53d1bd761ca2346d5b9bcc60d1c43be6">&#9670;&#160;</a></span>global_warp_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const int32_t global_warp_id = blockIdx.x * blockDim.y + threadIdx.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6df12c527b79f006699968f24d774fcb" name="a6df12c527b79f006699968f24d774fcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df12c527b79f006699968f24d774fcb">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58d2a94da907a301d9cd71dffefa25c3" name="a58d2a94da907a301d9cd71dffefa25c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58d2a94da907a301d9cd71dffefa25c3">&#9670;&#160;</a></span>is_small_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto is_small_L = <a class="el" href="#aecbb8e032512c651d4a4d6c76c201528">total_L</a> &lt;= (static_cast&lt;index_t&gt;(<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>) * 8)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5d11523cb9e630706dead6e236d9385" name="ac5d11523cb9e630706dead6e236d9385"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5d11523cb9e630706dead6e236d9385">&#9670;&#160;</a></span>is_zero_total_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto is_zero_total_L = <a class="el" href="#aecbb8e032512c651d4a4d6c76c201528">total_L</a> == 0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67824ecf84f5816f07b74fa956bdbcd2" name="a67824ecf84f5816f07b74fa956bdbcd2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67824ecf84f5816f07b74fa956bdbcd2">&#9670;&#160;</a></span>L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">L = shfl_sync(L, 0)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a016decd4d08ff2700a397621aff0cd67" name="a016decd4d08ff2700a397621aff0cd67"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a016decd4d08ff2700a397621aff0cd67">&#9670;&#160;</a></span>load_D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">load_D = shfl_sync(load_D, 0)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6aa5afd375a88f7cb364118fde074739" name="a6aa5afd375a88f7cb364118fde074739"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6aa5afd375a88f7cb364118fde074739">&#9670;&#160;</a></span>load_d</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> load_d = (<a class="el" href="#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> % <a class="el" href="#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a>) * <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04f448d8b284fc09ac62abe6b241bfb0" name="a04f448d8b284fc09ac62abe6b241bfb0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04f448d8b284fc09ac62abe6b241bfb0">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a68ceee01fdfd5d0a31881988c095ae" name="a6a68ceee01fdfd5d0a31881988c095ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a68ceee01fdfd5d0a31881988c095ae">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae2a8bf21f0c677246d8d102686641b65" name="ae2a8bf21f0c677246d8d102686641b65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2a8bf21f0c677246d8d102686641b65">&#9670;&#160;</a></span>LXU_PARAMS_CNT</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LXU_PARAMS_CNT = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c99f8e3e9c924534ce3075312e4b34a" name="a5c99f8e3e9c924534ce3075312e4b34a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3fdf1a4014f7660a86139d200368f74f" name="a3fdf1a4014f7660a86139d200368f74f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fdf1a4014f7660a86139d200368f74f">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a507523ed27f39808542bbb3b9c1382af" name="a507523ed27f39808542bbb3b9c1382af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a507523ed27f39808542bbb3b9c1382af">&#9670;&#160;</a></span>NUM_OFFSETS_PER_WARP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_OFFSETS_PER_WARP = <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a586264efd35f61c1e5b73ab1fd4f87a5" name="a586264efd35f61c1e5b73ab1fd4f87a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a586264efd35f61c1e5b73ab1fd4f87a5">&#9670;&#160;</a></span>NUM_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_PARAMS = <a class="el" href="#a777533551368ab4bfca5c1c8083e3e89">SAVED_PARAMS_CNT</a> + (USE_LXU_CACHE ? <a class="el" href="#ae2a8bf21f0c677246d8d102686641b65">LXU_PARAMS_CNT</a> : 0)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef84dc9fc9b8afa43b8fed4684630167" name="aef84dc9fc9b8afa43b8fed4684630167"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef84dc9fc9b8afa43b8fed4684630167">&#9670;&#160;</a></span>NUM_WARPS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_WARPS = <a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a> / <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1df1c715b5de4bbc9d9d9a5d78122a92" name="a1df1c715b5de4bbc9d9d9a5d78122a92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1df1c715b5de4bbc9d9d9a5d78122a92">&#9670;&#160;</a></span>num_warps_for_small_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> num_warps_for_small_L = <a class="el" href="#a0f2b77785cbc55639ba4e4874a65426c">DIV_ROUND_UP</a>(<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, <a class="el" href="#a507523ed27f39808542bbb3b9c1382af">NUM_OFFSETS_PER_WARP</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af324e8b39fc546b4a54e9436513e33b9" name="af324e8b39fc546b4a54e9436513e33b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af324e8b39fc546b4a54e9436513e33b9">&#9670;&#160;</a></span>num_warps_per_row</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> num_warps_per_row = <a class="el" href="#a0f2b77785cbc55639ba4e4874a65426c">DIV_ROUND_UP</a>(<a class="el" href="#a016decd4d08ff2700a397621aff0cd67">load_D</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6ed0a81091088c3c07a10b7fd8e63358" name="a6ed0a81091088c3c07a10b7fd8e63358"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ed0a81091088c3c07a10b7fd8e63358">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa742bdb164d113128d3e9b155f95acfe" name="aa742bdb164d113128d3e9b155f95acfe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa742bdb164d113128d3e9b155f95acfe">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">    <span class="keyword">using </span>emb_vec_t = <a class="code hl_typedef" href="#a58da2e6e124bd5725ddbf144b36921f5">vec4_type&lt;emb_t&gt;</a></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a58da2e6e124bd5725ddbf144b36921f5"><div class="ttname"><a href="#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a></div><div class="ttdeci">typename Vec4Type&lt; T &gt;::type vec4_type</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:69</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a02bec57c3d9431edc5aba7767412fada" name="a02bec57c3d9431edc5aba7767412fada"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02bec57c3d9431edc5aba7767412fada">&#9670;&#160;</a></span>params_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> params_offset = <a class="el" href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> * threadIdx.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91f4b44299546e7bea8da7a89cff344e" name="a91f4b44299546e7bea8da7a89cff344e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91f4b44299546e7bea8da7a89cff344e">&#9670;&#160;</a></span>row_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> row_start</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a777533551368ab4bfca5c1c8083e3e89" name="a777533551368ab4bfca5c1c8083e3e89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a777533551368ab4bfca5c1c8083e3e89">&#9670;&#160;</a></span>SAVED_PARAMS_CNT</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> SAVED_PARAMS_CNT = 7</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a843d0aea30f5cc9663eb720c3dd003ce" name="a843d0aea30f5cc9663eb720c3dd003ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a843d0aea30f5cc9663eb720c3dd003ce">&#9670;&#160;</a></span>smem</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__shared__ long smem[<a class="el" href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> *<a class="el" href="#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a>+<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad5a825be51026d8249ffccad954dbb5" name="aad5a825be51026d8249ffccad954dbb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad5a825be51026d8249ffccad954dbb5">&#9670;&#160;</a></span>STEP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb3518c2e8a95fe2496d295fe14b91df" name="abb3518c2e8a95fe2496d295fe14b91df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb3518c2e8a95fe2496d295fe14b91df">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a886f5e3baf03935340ae10c910916eb9" name="a886f5e3baf03935340ae10c910916eb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a886f5e3baf03935340ae10c910916eb9">&#9670;&#160;</a></span>t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int32_t t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a557e928f55b7bdfe7824b6ddd0fcfbff" name="a557e928f55b7bdfe7824b6ddd0fcfbff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a557e928f55b7bdfe7824b6ddd0fcfbff">&#9670;&#160;</a></span>table_warp_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int32_t table_warp_id</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aecbb8e032512c651d4a4d6c76c201528" name="aecbb8e032512c651d4a4d6c76c201528"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecbb8e032512c651d4a4d6c76c201528">&#9670;&#160;</a></span>total_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto total_L = <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>[(<a class="el" href="#a886f5e3baf03935340ae10c910916eb9">t</a> + 1) * <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>] - <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>[<a class="el" href="#a886f5e3baf03935340ae10c910916eb9">t</a> * <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a52ea0aaf4b80b614a42c9d62c2b17730" name="a52ea0aaf4b80b614a42c9d62c2b17730"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52ea0aaf4b80b614a42c9d62c2b17730">&#9670;&#160;</a></span>total_load_D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> total_load_D</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7b80f1189d1874ab861378ed299a21e" name="aa7b80f1189d1874ab861378ed299a21e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7b80f1189d1874ab861378ed299a21e">&#9670;&#160;</a></span>use_lxu_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">use_lxu_cache = USE_LXU_CACHE</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77d267b92511473228e629909dcb8a07" name="a77d267b92511473228e629909dcb8a07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77d267b92511473228e629909dcb8a07">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af57bf37dbd6a53004f468edeb5020860" name="af57bf37dbd6a53004f468edeb5020860"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af57bf37dbd6a53004f468edeb5020860">&#9670;&#160;</a></span>VEC_WIDTH</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> VEC_WIDTH = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9af84081fe94d1658365400ffcb263bc" name="a9af84081fe94d1658365400ffcb263bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9af84081fe94d1658365400ffcb263bc">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aa4ec0a3620e915289c174bc6ce3108" name="a5aa4ec0a3620e915289c174bc6ce3108"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aa4ec0a3620e915289c174bc6ce3108">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html b/gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html
new file mode 100644
index 000000000..43a2c367b
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html
@@ -0,0 +1,546 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">false</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">false</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">true</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">true</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a718566769c1ceda303b72d8876532ea6" name="a718566769c1ceda303b72d8876532ea6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a718566769c1ceda303b72d8876532ea6">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool use_lxu_cache&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a028ac1d276dc02b3db5e9195eea165f3" name="a028ac1d276dc02b3db5e9195eea165f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a028ac1d276dc02b3db5e9195eea165f3">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a240b4e029c521f922d447346c8b757b8" name="a240b4e029c521f922d447346c8b757b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240b4e029c521f922d447346c8b757b8">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a723eb6856253bb4551265a356dd5f35d" name="a723eb6856253bb4551265a356dd5f35d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a723eb6856253bb4551265a356dd5f35d">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a300401a48c1b4c0d98e372a4293da2" name="a4a300401a48c1b4c0d98e372a4293da2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a300401a48c1b4c0d98e372a4293da2">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2d7f9971f231260d0da708ce6bf6c179" name="a2d7f9971f231260d0da708ce6bf6c179"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d7f9971f231260d0da708ce6bf6c179">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8204f76fc5db4c5c7ac336538fa9da1f" name="a8204f76fc5db4c5c7ac336538fa9da1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8204f76fc5db4c5c7ac336538fa9da1f">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2581c8ea9d11ed091efe32b3ec6d2920" name="a2581c8ea9d11ed091efe32b3ec6d2920"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2581c8ea9d11ed091efe32b3ec6d2920">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a179f256aa33ee3f02b437129f3186a4c" name="a179f256aa33ee3f02b437129f3186a4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a179f256aa33ee3f02b437129f3186a4c">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7749446d7c1da86adc5b7c06dcc7817" name="aa7749446d7c1da86adc5b7c06dcc7817"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7749446d7c1da86adc5b7c06dcc7817">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc0762ff936d64a73eef3c78b9585024" name="afc0762ff936d64a73eef3c78b9585024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc0762ff936d64a73eef3c78b9585024">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8cb737489e5e5b8dc4db6de0b9c96a6f" name="a8cb737489e5e5b8dc4db6de0b9c96a6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8cb737489e5e5b8dc4db6de0b9c96a6f">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2ee4b3e799d56c4d34c87190c37a7a64" name="a2ee4b3e799d56c4d34c87190c37a7a64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ee4b3e799d56c4d34c87190c37a7a64">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a653cbc621a5959ad8f3951a92154c616" name="a653cbc621a5959ad8f3951a92154c616"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a653cbc621a5959ad8f3951a92154c616">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f15527d585dd62a23511c2f0bad4ca7" name="a9f15527d585dd62a23511c2f0bad4ca7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f15527d585dd62a23511c2f0bad4ca7">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6ffac73b54018941c14b57180e69abd" name="af6ffac73b54018941c14b57180e69abd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6ffac73b54018941c14b57180e69abd">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html b/gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html
new file mode 100644
index 000000000..345008c20
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html
@@ -0,0 +1,233 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac45ac774af2f2cdc3ef15fccacbc9866" name="ac45ac774af2f2cdc3ef15fccacbc9866"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac45ac774af2f2cdc3ef15fccacbc9866">&#9670;&#160;</a></span>split_embedding_codegen_forward_unweighted_vbe_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_unweighted_vbe_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html b/gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html
new file mode 100644
index 000000000..8c11cb718
--- /dev/null
+++ b/gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html
@@ -0,0 +1,1243 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_unweighted_vbe_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_unweighted_vbe_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a02d4931cef892bdaf44d3ab510f0d655" name="a02d4931cef892bdaf44d3ab510f0d655"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02d4931cef892bdaf44d3ab510f0d655">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , bool use_lxu_cache, typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a95e359c3e33b1c2fcc6bb83a101c998f" name="a95e359c3e33b1c2fcc6bb83a101c998f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95e359c3e33b1c2fcc6bb83a101c998f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abdcfee895dc0dbe60f3899820e3faef6" name="abdcfee895dc0dbe60f3899820e3faef6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abdcfee895dc0dbe60f3899820e3faef6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afdce4c5ff535f039b96169a5441d66f6" name="afdce4c5ff535f039b96169a5441d66f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afdce4c5ff535f039b96169a5441d66f6">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2463ea08e2eade6932bdc3b08dbf3f4b" name="a2463ea08e2eade6932bdc3b08dbf3f4b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2463ea08e2eade6932bdc3b08dbf3f4b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8835d1cabbeed24c96e827473542eea4" name="a8835d1cabbeed24c96e827473542eea4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8835d1cabbeed24c96e827473542eea4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a931774f9fe3e608ee4b30ec8e200049b" name="a931774f9fe3e608ee4b30ec8e200049b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a931774f9fe3e608ee4b30ec8e200049b">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaf16de5ee78d9de99a703cdbe61255c0" name="aaf16de5ee78d9de99a703cdbe61255c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf16de5ee78d9de99a703cdbe61255c0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea632259492fcd4ba0011382bee2beea" name="aea632259492fcd4ba0011382bee2beea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea632259492fcd4ba0011382bee2beea">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4458fec1221cc0c7df2c1ef8bef422db" name="a4458fec1221cc0c7df2c1ef8bef422db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4458fec1221cc0c7df2c1ef8bef422db">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17466673ca73e70a4887999d2955aaf0" name="a17466673ca73e70a4887999d2955aaf0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17466673ca73e70a4887999d2955aaf0">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d0b2d3bd9c920851a41c71817e28378" name="a3d0b2d3bd9c920851a41c71817e28378"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d0b2d3bd9c920851a41c71817e28378">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a436f00b93c571aa3159b822122e4e781" name="a436f00b93c571aa3159b822122e4e781"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a436f00b93c571aa3159b822122e4e781">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8bd2c5adf9e33805340e4717cd9f0617" name="a8bd2c5adf9e33805340e4717cd9f0617"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8bd2c5adf9e33805340e4717cd9f0617">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a0ad31f76c1f9349ef8b21ca138e897cc" name="a0ad31f76c1f9349ef8b21ca138e897cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ad31f76c1f9349ef8b21ca138e897cc">&#9670;&#160;</a></span>false</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5baa8672e7ddf3cefb150e4660d86a" name="acc5baa8672e7ddf3cefb150e4660d86a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5baa8672e7ddf3cefb150e4660d86a">&#9670;&#160;</a></span>true</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__codegen__cuda_8cu.html b/gen__embedding__forward__split__weighted__codegen__cuda_8cu.html
new file mode 100644
index 000000000..284423188
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__codegen__cuda_8cu.html
@@ -0,0 +1,541 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">false</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">false</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">true</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">true</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a993a3437f132715df009e8cdd7a12806" name="a993a3437f132715df009e8cdd7a12806"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a993a3437f132715df009e8cdd7a12806">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool use_lxu_cache&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25265c0efdc4f020ea5b8d5e730dfb31" name="a25265c0efdc4f020ea5b8d5e730dfb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25265c0efdc4f020ea5b8d5e730dfb31">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ad0a8e9e782f3a3f177d6791f9ee9b866" name="ad0a8e9e782f3a3f177d6791f9ee9b866"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0a8e9e782f3a3f177d6791f9ee9b866">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1cf44edc754c1d53c702015bfb974d77" name="a1cf44edc754c1d53c702015bfb974d77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1cf44edc754c1d53c702015bfb974d77">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91261c861a9c2e7ff7936dba196c034e" name="a91261c861a9c2e7ff7936dba196c034e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91261c861a9c2e7ff7936dba196c034e">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79f22b62b5882d0d141e2797331c3262" name="a79f22b62b5882d0d141e2797331c3262"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79f22b62b5882d0d141e2797331c3262">&#9670;&#160;</a></span>index_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const index_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6df12c527b79f006699968f24d774fcb" name="a6df12c527b79f006699968f24d774fcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df12c527b79f006699968f24d774fcb">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8dd6cf2b56fe463818d54d1317d9fff" name="ab8dd6cf2b56fe463818d54d1317d9fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8dd6cf2b56fe463818d54d1317d9fff">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a68ceee01fdfd5d0a31881988c095ae" name="a6a68ceee01fdfd5d0a31881988c095ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a68ceee01fdfd5d0a31881988c095ae">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c99f8e3e9c924534ce3075312e4b34a" name="a5c99f8e3e9c924534ce3075312e4b34a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3fdf1a4014f7660a86139d200368f74f" name="a3fdf1a4014f7660a86139d200368f74f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fdf1a4014f7660a86139d200368f74f">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f8b83bcbf1f5b73f650fb246a02a2fe" name="a7f8b83bcbf1f5b73f650fb246a02a2fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f8b83bcbf1f5b73f650fb246a02a2fe">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85cde3a0577b44c06afc80d802b86dc6" name="a85cde3a0577b44c06afc80d802b86dc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85cde3a0577b44c06afc80d802b86dc6">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb3518c2e8a95fe2496d295fe14b91df" name="abb3518c2e8a95fe2496d295fe14b91df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb3518c2e8a95fe2496d295fe14b91df">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77d267b92511473228e629909dcb8a07" name="a77d267b92511473228e629909dcb8a07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77d267b92511473228e629909dcb8a07">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba904c170660e349edfb178490ec1ec1" name="aba904c170660e349edfb178490ec1ec1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba904c170660e349edfb178490ec1ec1">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aa4ec0a3620e915289c174bc6ce3108" name="a5aa4ec0a3620e915289c174bc6ce3108"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aa4ec0a3620e915289c174bc6ce3108">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__codegen__meta_8cpp.html b/gen__embedding__forward__split__weighted__codegen__meta_8cpp.html
new file mode 100644
index 000000000..fe8611265
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__codegen__meta_8cpp.html
@@ -0,0 +1,213 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a3f1b063bf337baa7c85cd891f50dcb17" name="a3f1b063bf337baa7c85cd891f50dcb17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f1b063bf337baa7c85cd891f50dcb17">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__kernel_8cu.html b/gen__embedding__forward__split__weighted__kernel_8cu.html
new file mode 100644
index 000000000..07ee41ff0
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__kernel_8cu.html
@@ -0,0 +1,1123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0f7cdacc2963885ca7eddcf74c44c1e7" name="a0f7cdacc2963885ca7eddcf74c44c1e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f7cdacc2963885ca7eddcf74c44c1e7">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , bool use_lxu_cache, typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a183af91deddd1a5f4c5d1657476d2594" name="a183af91deddd1a5f4c5d1657476d2594"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a183af91deddd1a5f4c5d1657476d2594">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a43cd667ed17b8606af1dd1f5027311a4" name="a43cd667ed17b8606af1dd1f5027311a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a43cd667ed17b8606af1dd1f5027311a4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a99087a69215e3ecfff828e64866fb490" name="a99087a69215e3ecfff828e64866fb490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99087a69215e3ecfff828e64866fb490">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af47656d04bdce098caf47b331b74fe2e" name="af47656d04bdce098caf47b331b74fe2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af47656d04bdce098caf47b331b74fe2e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab46e47b9451a78d43c7c23cf897e9445" name="ab46e47b9451a78d43c7c23cf897e9445"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab46e47b9451a78d43c7c23cf897e9445">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af359f9c87918957f14c927e52e0d719c" name="af359f9c87918957f14c927e52e0d719c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af359f9c87918957f14c927e52e0d719c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82d9c13b59a58a367c962ccdaa95bc01" name="a82d9c13b59a58a367c962ccdaa95bc01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82d9c13b59a58a367c962ccdaa95bc01">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe7f0771d29a6a9ffd897e23dd341d7c" name="afe7f0771d29a6a9ffd897e23dd341d7c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe7f0771d29a6a9ffd897e23dd341d7c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad96d48c6eacdc0589531c48472f370dd" name="ad96d48c6eacdc0589531c48472f370dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad96d48c6eacdc0589531c48472f370dd">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61ff627d873a281ecf852f217e944c4c" name="a61ff627d873a281ecf852f217e944c4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61ff627d873a281ecf852f217e944c4c">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91968527cd3a341bbc8777ae41190d41" name="a91968527cd3a341bbc8777ae41190d41"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91968527cd3a341bbc8777ae41190d41">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9f0e82189d5fd39e1aed1f89eb7336d" name="ac9f0e82189d5fd39e1aed1f89eb7336d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9f0e82189d5fd39e1aed1f89eb7336d">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aefd9621d81effbb756e78929daae8517" name="aefd9621d81effbb756e78929daae8517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aefd9621d81effbb756e78929daae8517">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a0ad31f76c1f9349ef8b21ca138e897cc" name="a0ad31f76c1f9349ef8b21ca138e897cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ad31f76c1f9349ef8b21ca138e897cc">&#9670;&#160;</a></span>false</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5baa8672e7ddf3cefb150e4660d86a" name="acc5baa8672e7ddf3cefb150e4660d86a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5baa8672e7ddf3cefb150e4660d86a">&#9670;&#160;</a></span>true</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__v2__kernel_8cu.html b/gen__embedding__forward__split__weighted__v2__kernel_8cu.html
new file mode 100644
index 000000000..64bb21550
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__v2__kernel_8cu.html
@@ -0,0 +1,3690 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_v2_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_v2_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type.html">Vec4Type&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ada15471a8b1da6a3a43b940916fea71e" name="ada15471a8b1da6a3a43b940916fea71e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada15471a8b1da6a3a43b940916fea71e">&#9670;&#160;</a></span>ACC_ADD_OR_FMA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define ACC_ADD_OR_FMA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDEX_WEIGHT</span>&#160;)&#160;&#160;&#160;  <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a2a539cccb1f62bb145cef234b6608c7f">accumulator.fma</a>(WEIGHT, INDEX_WEIGHT);</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f2b77785cbc55639ba4e4874a65426c" name="a0f2b77785cbc55639ba4e4874a65426c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f2b77785cbc55639ba4e4874a65426c">&#9670;&#160;</a></span>DIV_ROUND_UP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DIV_ROUND_UP</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">numer, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">denom</span>&#160;)&#160;&#160;&#160;((numer + denom - 1) / denom)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acaeccb7e2e5908cef08556661b7a6f44" name="acaeccb7e2e5908cef08556661b7a6f44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acaeccb7e2e5908cef08556661b7a6f44">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    <span class="keywordflow">if</span> (<a class="code hl_variable" href="#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a>) { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">true</span>, __VA_ARGS__); \</div>
+<div class="line">    } \</div>
+<div class="line">    <span class="keywordflow">else</span> { \</div>
+<div class="line">      INVOKE_PROCESS_ALL_INDICES_HELPER(<span class="keyword">false</span>, __VA_ARGS__); \</div>
+<div class="line">    }</div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_aa7b80f1189d1874ab861378ed299a21e"><div class="ttname"><a href="#aa7b80f1189d1874ab861378ed299a21e">use_lxu_cache</a></div><div class="ttdeci">bool use_lxu_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:765</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a65e818853d870f84ef24b703b0e02618" name="a65e818853d870f84ef24b703b0e02618"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65e818853d870f84ef24b703b0e02618">&#9670;&#160;</a></span>INVOKE_PROCESS_ALL_INDICES_HELPER</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_PROCESS_ALL_INDICES_HELPER</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">USE_CACHE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">KERNEL_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TAIL_WARP_SIZE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">STEP_MASK</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">    process_all_indices_## KERNEL_TYPE&lt; \</div>
+<div class="line">      index_t, \</div>
+<div class="line">      emb_t, \</div>
+<div class="line">      emb_vec_t, \</div>
+<div class="line">      cache_t, \</div>
+<div class="line">      <a class="code hl_typedef" href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>, \</div>
+<div class="line">      <a class="code hl_typedef" href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a>, \</div>
+<div class="line">      USE_CACHE, \</div>
+<div class="line">      USE_CACHE &amp;&amp; !std::is_same&lt;emb_t, cache_t&gt;::value, \</div>
+<div class="line">      <a class="code hl_variable" href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> * <a class="code hl_variable" href="#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a>, \</div>
+<div class="line">      <a class="code hl_variable" href="#aad5a825be51026d8249ffccad954dbb5">STEP</a>, \</div>
+<div class="line">      STEP_MASK, \</div>
+<div class="line">      TAIL_WARP_SIZE \</div>
+<div class="line">    &gt;( \</div>
+<div class="line">        <a class="code hl_variable" href="#a843d0aea30f5cc9663eb720c3dd003ce">smem</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a67824ecf84f5816f07b74fa956bdbcd2">L</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a6aa5afd375a88f7cb364118fde074739">load_d</a> + (threadIdx.x % TAIL_WARP_SIZE) &lt; <a class="code hl_variable" href="#a016decd4d08ff2700a397621aff0cd67">load_D</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a3fdf1a4014f7660a86139d200368f74f">mean_pooling</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a02bec57c3d9431edc5aba7767412fada">params_offset</a>, \</div>
+<div class="line">        <a class="code hl_variable" href="#a5c99f8e3e9c924534ce3075312e4b34a">max_D_cache</a>)</div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a016decd4d08ff2700a397621aff0cd67"><div class="ttname"><a href="#a016decd4d08ff2700a397621aff0cd67">load_D</a></div><div class="ttdeci">uint32_t load_D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:743</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a02bec57c3d9431edc5aba7767412fada"><div class="ttname"><a href="#a02bec57c3d9431edc5aba7767412fada">params_offset</a></div><div class="ttdeci">const uint32_t params_offset</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:693</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a3fdf1a4014f7660a86139d200368f74f"><div class="ttname"><a href="#a3fdf1a4014f7660a86139d200368f74f">mean_pooling</a></div><div class="ttdeci">const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool mean_pooling</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:674</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a46b036c211c222352709e6bb2420878d"><div class="ttname"><a href="#a46b036c211c222352709e6bb2420878d">output_vec_t</a></div><div class="ttdeci">vec4_type&lt; output_t &gt; output_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:686</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a586264efd35f61c1e5b73ab1fd4f87a5"><div class="ttname"><a href="#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a></div><div class="ttdeci">constexpr uint32_t NUM_PARAMS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:690</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a5c99f8e3e9c924534ce3075312e4b34a"><div class="ttname"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">max_D_cache</a></div><div class="ttdeci">const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t const bool const uint32_t max_D_cache</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:675</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a6394626e129b23b47a8e900179ea1a98"><div class="ttname"><a href="#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a></div><div class="ttdeci">vec4_type&lt; cache_t &gt; cache_vec_t</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:685</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a67824ecf84f5816f07b74fa956bdbcd2"><div class="ttname"><a href="#a67824ecf84f5816f07b74fa956bdbcd2">L</a></div><div class="ttdeci">uint32_t L</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:763</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a6aa5afd375a88f7cb364118fde074739"><div class="ttname"><a href="#a6aa5afd375a88f7cb364118fde074739">load_d</a></div><div class="ttdeci">const uint32_t load_d</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:760</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_a843d0aea30f5cc9663eb720c3dd003ce"><div class="ttname"><a href="#a843d0aea30f5cc9663eb720c3dd003ce">smem</a></div><div class="ttdeci">__shared__ long smem[NUM_PARAMS *NUM_WARPS+kForwardMaxThreads]</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:692</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_aad5a825be51026d8249ffccad954dbb5"><div class="ttname"><a href="#aad5a825be51026d8249ffccad954dbb5">STEP</a></div><div class="ttdeci">constexpr uint32_t STEP</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:691</div></div>
+<div class="ttc" id="agen__embedding__forward__split__weighted__v2__kernel_8cu_html_aef84dc9fc9b8afa43b8fed4684630167"><div class="ttname"><a href="#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a></div><div class="ttdeci">constexpr uint32_t NUM_WARPS</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_weighted_v2_kernel.cu:688</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a9e947cce4a2cf3d4f94feeaf6024a3e3" name="a9e947cce4a2cf3d4f94feeaf6024a3e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e947cce4a2cf3d4f94feeaf6024a3e3">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f5221b4fcc0397e5c260e567afd000f" name="a8f5221b4fcc0397e5c260e567afd000f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f5221b4fcc0397e5c260e567afd000f">&#9670;&#160;</a></span>SMEM_CACHE_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_CACHE_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a>**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a741fa81333f21f397dd7bcb524345f77" name="a741fa81333f21f397dd7bcb524345f77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a741fa81333f21f397dd7bcb524345f77">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_DATA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_DATA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">SMEM_IDX, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_IDX</span>&#160;)&#160;&#160;&#160;  (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)[SMEM_IDX])[WEIGHT_IDX]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a240239b93a27d2333aba0661096e3f2f" name="a240239b93a27d2333aba0661096e3f2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a240239b93a27d2333aba0661096e3f2f">&#9670;&#160;</a></span>SMEM_EMB_WEIGHT_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_EMB_WEIGHT_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(const emb_vec_t**)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82d4ccecee745b4cadb5d2d04e986efc" name="a82d4ccecee745b4cadb5d2d04e986efc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82d4ccecee745b4cadb5d2d04e986efc">&#9670;&#160;</a></span>SMEM_GENERIC_PTR</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_GENERIC_PTR&#160;&#160;&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">SMEM_PTR_BASE</a>(uintptr_t*)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c92b1dfe0de84f52323da3897cb0bb4" name="a5c92b1dfe0de84f52323da3897cb0bb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c92b1dfe0de84f52323da3897cb0bb4">&#9670;&#160;</a></span>SMEM_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? j : ((threadIdx.x / LOAD_GROUP_SIZE) + (j * NUM_LOAD_GROUPS)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aec0d9a647d3bde05780ff426af9ebf45" name="aec0d9a647d3bde05780ff426af9ebf45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec0d9a647d3bde05780ff426af9ebf45">&#9670;&#160;</a></span>SMEM_PTR_BASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define SMEM_PTR_BASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">TYPE</span></td><td>)</td>
+          <td>&#160;&#160;&#160;  (reinterpret_cast&lt;TYPE&gt;(<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">smem</a> + WEIGHT_PTR_OFFSET) + threadIdx.y * <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e90593b9eb03be49ddd5e3e5473f0b5" name="a1e90593b9eb03be49ddd5e3e5473f0b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e90593b9eb03be49ddd5e3e5473f0b5">&#9670;&#160;</a></span>WEIGHT_OFFSET</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define WEIGHT_OFFSET&#160;&#160;&#160;    (IS_FULL_WARP ? threadIdx.x : (threadIdx.x % LOAD_GROUP_SIZE))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="a6394626e129b23b47a8e900179ea1a98" name="a6394626e129b23b47a8e900179ea1a98"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6394626e129b23b47a8e900179ea1a98">&#9670;&#160;</a></span>cache_vec_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a>&lt;cache_t&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46b036c211c222352709e6bb2420878d" name="a46b036c211c222352709e6bb2420878d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46b036c211c222352709e6bb2420878d">&#9670;&#160;</a></span>output_vec_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a>&lt;output_t&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58da2e6e124bd5725ddbf144b36921f5" name="a58da2e6e124bd5725ddbf144b36921f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58da2e6e124bd5725ddbf144b36921f5">&#9670;&#160;</a></span>vec4_type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a> = typename <a class="el" href="struct_vec4_type.html">Vec4Type</a>&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>&gt;::type</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Enumeration Type Documentation</h2>
+<a id="ad863bc0421e111195e2ac11c7ad2071d" name="ad863bc0421e111195e2ac11c7ad2071d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad863bc0421e111195e2ac11c7ad2071d">&#9670;&#160;</a></span>LXU_CACHE_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d">LXU_CACHE_PARAMS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0" name="ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0"></a>P_lxu_cache_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c" name="ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c"></a>P_lxu_cache_locations&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aa8c3f67d852b0552ccbe30a899cd4c54" name="aa8c3f67d852b0552ccbe30a899cd4c54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8c3f67d852b0552ccbe30a899cd4c54">&#9670;&#160;</a></span>SAVED_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">SAVED_PARAMS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20" name="aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20"></a>P_indices&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52" name="aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52"></a>P_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da" name="aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da"></a>P_outputs&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18" name="aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18"></a>P_index_weights&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029" name="aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029"></a>P_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144" name="aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144"></a>P_num_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834" name="aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834"></a>P_load_D&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2" name="aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2"></a>P_total_load_D&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a993a3437f132715df009e8cdd7a12806" name="a993a3437f132715df009e8cdd7a12806"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a993a3437f132715df009e8cdd7a12806">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool USE_LXU_CACHE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7cf7d29de243a1d3d643b7f99420ca73" name="a7cf7d29de243a1d3d643b7f99420ca73"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cf7d29de243a1d3d643b7f99420ca73">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a31faa05b32d14aec34e66800b6092329" name="a31faa05b32d14aec34e66800b6092329"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a31faa05b32d14aec34e66800b6092329">&#9670;&#160;</a></span>DivMod()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">fd_num_warps_per_table</a> DivMod </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">global_warp_id</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&amp;</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&amp;</td>          <td class="paramname"><span class="paramname"><em>table_warp_id</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab84745c1fc3e4c483778cc8dc325eb7f" name="ab84745c1fc3e4c483778cc8dc325eb7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab84745c1fc3e4c483778cc8dc325eb7f">&#9670;&#160;</a></span>false() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7ccf30944601039563603d837470824c" name="a7ccf30944601039563603d837470824c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ccf30944601039563603d837470824c">&#9670;&#160;</a></span>false() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb117339908a6826b75877db094f909d" name="acb117339908a6826b75877db094f909d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb117339908a6826b75877db094f909d">&#9670;&#160;</a></span>false() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af26c8601b994cb4ad7a7d08104ccc876" name="af26c8601b994cb4ad7a7d08104ccc876"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af26c8601b994cb4ad7a7d08104ccc876">&#9670;&#160;</a></span>false() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79860db3c0c6c510a821d9ac0a4c6764" name="a79860db3c0c6c510a821d9ac0a4c6764"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79860db3c0c6c510a821d9ac0a4c6764">&#9670;&#160;</a></span>false() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a008e7d608ca15741939511b1f48878" name="a6a008e7d608ca15741939511b1f48878"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a008e7d608ca15741939511b1f48878">&#9670;&#160;</a></span>false() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1695088ded9f86314e0bc374c4ad57f9" name="a1695088ded9f86314e0bc374c4ad57f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1695088ded9f86314e0bc374c4ad57f9">&#9670;&#160;</a></span>false() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5acddab9f4eec4c91ba1403005c3ec7d" name="a5acddab9f4eec4c91ba1403005c3ec7d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5acddab9f4eec4c91ba1403005c3ec7d">&#9670;&#160;</a></span>false() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac335cccca06f6bd0865b65bb20192a24" name="ac335cccca06f6bd0865b65bb20192a24"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac335cccca06f6bd0865b65bb20192a24">&#9670;&#160;</a></span>false() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbb29ff03c359916c050f25deac56e9e" name="afbb29ff03c359916c050f25deac56e9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbb29ff03c359916c050f25deac56e9e">&#9670;&#160;</a></span>false() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b7156fcc5a6e05dd2ab1a0dd33f339d" name="a0b7156fcc5a6e05dd2ab1a0dd33f339d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b7156fcc5a6e05dd2ab1a0dd33f339d">&#9670;&#160;</a></span>false() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afb14ab09e129e59e6e323cc8ad114e0a" name="afb14ab09e129e59e6e323cc8ad114e0a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb14ab09e129e59e6e323cc8ad114e0a">&#9670;&#160;</a></span>false() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7cc9e1627beb86ecc866da06957e0fff" name="a7cc9e1627beb86ecc866da06957e0fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cc9e1627beb86ecc866da06957e0fff">&#9670;&#160;</a></span>get_next_bag_boundary_and_L()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOWER_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void get_next_bag_boundary_and_L </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a49e7c05f68f0175f3c44c6b1c12c5117" name="a49e7c05f68f0175f3c44c6b1c12c5117"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49e7c05f68f0175f3c44c6b1c12c5117">&#9670;&#160;</a></span>if() <span class="overload">[1/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a> &amp;&amp;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> &gt;=<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92">num_warps_for_small_L</a> *</td>          <td class="paramname"><span class="paramname"><em>8</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ab8250d245b6612c02d934b63fdcd52" name="a4ab8250d245b6612c02d934b63fdcd52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ab8250d245b6612c02d934b63fdcd52">&#9670;&#160;</a></span>if() <span class="overload">[2/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a37c3fe73e60868097d45b151e9c4a430" name="a37c3fe73e60868097d45b151e9c4a430"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a37c3fe73e60868097d45b151e9c4a430">&#9670;&#160;</a></span>if() <span class="overload">[3/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385">is_zero_total_L</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa19ed116a2acf1b1ef0527b77b3d4ec" name="aaa19ed116a2acf1b1ef0527b77b3d4ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa19ed116a2acf1b1ef0527b77b3d4ec">&#9670;&#160;</a></span>if() <span class="overload">[4/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">L</a>&lt;=</td>          <td class="paramname"><span class="paramname"><em>1</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a618af795eb1829b78b342e084130e1f4" name="a618af795eb1829b78b342e084130e1f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a618af795eb1829b78b342e084130e1f4">&#9670;&#160;</a></span>if() <span class="overload">[5/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">t</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>T</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a509435224d0201170dbceeef2d47698f" name="a509435224d0201170dbceeef2d47698f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a509435224d0201170dbceeef2d47698f">&#9670;&#160;</a></span>if() <span class="overload">[6/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> &gt;=<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a> *</td>          <td class="paramname"><span class="paramname">is_small_L ? num_warps_for_small_L :B</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1958ec7365ff8575f7973e15353c0121" name="a1958ec7365ff8575f7973e15353c0121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1958ec7365ff8575f7973e15353c0121">&#9670;&#160;</a></span>if() <span class="overload">[7/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype">threadIdx.</td>          <td class="paramname"><span class="paramname"><em>x</em><span class="paramdefsep"> = </span><span class="paramdefval">=&#160;0</span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad4f576c80cbb86fce55f5420968bc826" name="ad4f576c80cbb86fce55f5420968bc826"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4f576c80cbb86fce55f5420968bc826">&#9670;&#160;</a></span>process_all_indices_large_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_large_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02fb6083bc1f3a1c39dabb7818866a46" name="a02fb6083bc1f3a1c39dabb7818866a46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02fb6083bc1f3a1c39dabb7818866a46">&#9670;&#160;</a></span>process_all_indices_no_pooling()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void process_all_indices_no_pooling </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a871fb6b516157e559e3ed26b56e4245c" name="a871fb6b516157e559e3ed26b56e4245c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a871fb6b516157e559e3ed26b56e4245c">&#9670;&#160;</a></span>process_all_indices_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename index_t , typename emb_t , typename emb_vec_t , typename cache_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">cache_vec_t</a> , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , bool USE_CACHE_WEIGHTS, bool USE_MIXED_TYPE_CACHE, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WEIGHT_PTR_OFFSET, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP_MASK, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LOAD_GROUP_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__noinline__ __device__ void process_all_indices_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>total_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab80c4590dcdff94d23d4f89f1c7e0039" name="ab80c4590dcdff94d23d4f89f1c7e0039"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab80c4590dcdff94d23d4f89f1c7e0039">&#9670;&#160;</a></span>true() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a3bc2db616d7f8f845d8e0cd092fd56" name="a4a3bc2db616d7f8f845d8e0cd092fd56"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a3bc2db616d7f8f845d8e0cd092fd56">&#9670;&#160;</a></span>true() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a28fe8dcfa38da6241b67d3ec3e4ff2" name="a0a28fe8dcfa38da6241b67d3ec3e4ff2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a28fe8dcfa38da6241b67d3ec3e4ff2">&#9670;&#160;</a></span>true() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab59b0abf8963d48e63c90334daea4fc5" name="ab59b0abf8963d48e63c90334daea4fc5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab59b0abf8963d48e63c90334daea4fc5">&#9670;&#160;</a></span>true() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afeba51154f1a22327b47305480f43671" name="afeba51154f1a22327b47305480f43671"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afeba51154f1a22327b47305480f43671">&#9670;&#160;</a></span>true() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad88bb49652d4d156c75abb8ca2419542" name="ad88bb49652d4d156c75abb8ca2419542"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad88bb49652d4d156c75abb8ca2419542">&#9670;&#160;</a></span>true() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa93f293dcfd38afcd57776f33ceb8490" name="aa93f293dcfd38afcd57776f33ceb8490"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa93f293dcfd38afcd57776f33ceb8490">&#9670;&#160;</a></span>true() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca3f7571841f3f5e46e703a210f5ef3d" name="aca3f7571841f3f5e46e703a210f5ef3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca3f7571841f3f5e46e703a210f5ef3d">&#9670;&#160;</a></span>true() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a66d27435490ba7673e7362fca9cc8f7e" name="a66d27435490ba7673e7362fca9cc8f7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a66d27435490ba7673e7362fca9cc8f7e">&#9670;&#160;</a></span>true() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a09d02507a5cf390975fafa6a5c7096e8" name="a09d02507a5cf390975fafa6a5c7096e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a09d02507a5cf390975fafa6a5c7096e8">&#9670;&#160;</a></span>true() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="addc9e8fb4cd569b143bff818ca6e068b" name="addc9e8fb4cd569b143bff818ca6e068b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#addc9e8fb4cd569b143bff818ca6e068b">&#9670;&#160;</a></span>true() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>, 2048/<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; at template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa41a6064cb3571ecd43c9da816216785" name="aa41a6064cb3571ecd43c9da816216785"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa41a6064cb3571ecd43c9da816216785">&#9670;&#160;</a></span>true() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D_cache</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_num_warps_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>index_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *__restrict__ const</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a784fce39007138a17294839676673bde" name="a784fce39007138a17294839676673bde"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a784fce39007138a17294839676673bde">&#9670;&#160;</a></span>write_loop_small_Ls()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">output_vec_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> BOUNDARY_IDX_BIT_CNT, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> WARP_MASK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__inline__ __device__ void write_loop_small_Ls </td>
+          <td>(</td>
+          <td class="paramtype">long *const</td>          <td class="paramname"><span class="paramname"><em>smem</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>write_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>bag_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t *const</td>          <td class="paramname"><span class="paramname"><em>next_boundary</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *const</td>          <td class="paramname"><span class="paramname"><em>L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a>&lt; <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a>, emb_t &gt; *const</td>          <td class="paramname"><span class="paramname"><em>accumulator</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>params_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>l</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>process_d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>mean_pooling</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ad0a8e9e782f3a3f177d6791f9ee9b866" name="ad0a8e9e782f3a3f177d6791f9ee9b866"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0a8e9e782f3a3f177d6791f9ee9b866">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83bdb6901e840002ec04521cd2fcafe6" name="a83bdb6901e840002ec04521cd2fcafe6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83bdb6901e840002ec04521cd2fcafe6">&#9670;&#160;</a></span>b</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> b = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> / <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a> * (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">is_small_L</a> ? <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">NUM_OFFSETS_PER_WARP</a> : 1)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1cf44edc754c1d53c702015bfb974d77" name="a1cf44edc754c1d53c702015bfb974d77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1cf44edc754c1d53c702015bfb974d77">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aede9588b11147ebb6a17d9672563737c" name="aede9588b11147ebb6a17d9672563737c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aede9588b11147ebb6a17d9672563737c">&#9670;&#160;</a></span>D_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> D_start</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91261c861a9c2e7ff7936dba196c034e" name="a91261c861a9c2e7ff7936dba196c034e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91261c861a9c2e7ff7936dba196c034e">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53d1bd761ca2346d5b9bcc60d1c43be6" name="a53d1bd761ca2346d5b9bcc60d1c43be6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53d1bd761ca2346d5b9bcc60d1c43be6">&#9670;&#160;</a></span>global_warp_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const int32_t global_warp_id = blockIdx.x * blockDim.y + threadIdx.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79f22b62b5882d0d141e2797331c3262" name="a79f22b62b5882d0d141e2797331c3262"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79f22b62b5882d0d141e2797331c3262">&#9670;&#160;</a></span>index_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const index_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6df12c527b79f006699968f24d774fcb" name="a6df12c527b79f006699968f24d774fcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df12c527b79f006699968f24d774fcb">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a58d2a94da907a301d9cd71dffefa25c3" name="a58d2a94da907a301d9cd71dffefa25c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58d2a94da907a301d9cd71dffefa25c3">&#9670;&#160;</a></span>is_small_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto is_small_L = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">total_L</a> &lt;= (static_cast&lt;index_t&gt;(<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>) * 8)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5d11523cb9e630706dead6e236d9385" name="ac5d11523cb9e630706dead6e236d9385"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5d11523cb9e630706dead6e236d9385">&#9670;&#160;</a></span>is_zero_total_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto is_zero_total_L = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">total_L</a> == 0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67824ecf84f5816f07b74fa956bdbcd2" name="a67824ecf84f5816f07b74fa956bdbcd2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67824ecf84f5816f07b74fa956bdbcd2">&#9670;&#160;</a></span>L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">L = shfl_sync(L, 0)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a016decd4d08ff2700a397621aff0cd67" name="a016decd4d08ff2700a397621aff0cd67"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a016decd4d08ff2700a397621aff0cd67">&#9670;&#160;</a></span>load_D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">load_D = shfl_sync(load_D, 0)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6aa5afd375a88f7cb364118fde074739" name="a6aa5afd375a88f7cb364118fde074739"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6aa5afd375a88f7cb364118fde074739">&#9670;&#160;</a></span>load_d</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> load_d = (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">table_warp_id</a> % <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">num_warps_per_row</a>) * <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8dd6cf2b56fe463818d54d1317d9fff" name="ab8dd6cf2b56fe463818d54d1317d9fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8dd6cf2b56fe463818d54d1317d9fff">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a68ceee01fdfd5d0a31881988c095ae" name="a6a68ceee01fdfd5d0a31881988c095ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a68ceee01fdfd5d0a31881988c095ae">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae2a8bf21f0c677246d8d102686641b65" name="ae2a8bf21f0c677246d8d102686641b65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2a8bf21f0c677246d8d102686641b65">&#9670;&#160;</a></span>LXU_PARAMS_CNT</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> LXU_PARAMS_CNT = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c99f8e3e9c924534ce3075312e4b34a" name="a5c99f8e3e9c924534ce3075312e4b34a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3fdf1a4014f7660a86139d200368f74f" name="a3fdf1a4014f7660a86139d200368f74f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fdf1a4014f7660a86139d200368f74f">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a507523ed27f39808542bbb3b9c1382af" name="a507523ed27f39808542bbb3b9c1382af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a507523ed27f39808542bbb3b9c1382af">&#9670;&#160;</a></span>NUM_OFFSETS_PER_WARP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_OFFSETS_PER_WARP = <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a586264efd35f61c1e5b73ab1fd4f87a5" name="a586264efd35f61c1e5b73ab1fd4f87a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a586264efd35f61c1e5b73ab1fd4f87a5">&#9670;&#160;</a></span>NUM_PARAMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_PARAMS = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89">SAVED_PARAMS_CNT</a> + (USE_LXU_CACHE ? <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65">LXU_PARAMS_CNT</a> : 0)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef84dc9fc9b8afa43b8fed4684630167" name="aef84dc9fc9b8afa43b8fed4684630167"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef84dc9fc9b8afa43b8fed4684630167">&#9670;&#160;</a></span>NUM_WARPS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_WARPS = <a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a> / <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1df1c715b5de4bbc9d9d9a5d78122a92" name="a1df1c715b5de4bbc9d9d9a5d78122a92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1df1c715b5de4bbc9d9d9a5d78122a92">&#9670;&#160;</a></span>num_warps_for_small_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> num_warps_for_small_L = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">DIV_ROUND_UP</a>(<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">NUM_OFFSETS_PER_WARP</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af324e8b39fc546b4a54e9436513e33b9" name="af324e8b39fc546b4a54e9436513e33b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af324e8b39fc546b4a54e9436513e33b9">&#9670;&#160;</a></span>num_warps_per_row</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> num_warps_per_row = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">DIV_ROUND_UP</a>(<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">load_D</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f8b83bcbf1f5b73f650fb246a02a2fe" name="a7f8b83bcbf1f5b73f650fb246a02a2fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f8b83bcbf1f5b73f650fb246a02a2fe">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85cde3a0577b44c06afc80d802b86dc6" name="a85cde3a0577b44c06afc80d802b86dc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85cde3a0577b44c06afc80d802b86dc6">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">    <span class="keyword">using </span>emb_vec_t = <a class="code hl_typedef" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type&lt;emb_t&gt;</a></div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a58da2e6e124bd5725ddbf144b36921f5"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">vec4_type</a></div><div class="ttdeci">typename Vec4Type&lt; T &gt;::type vec4_type</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:69</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a02bec57c3d9431edc5aba7767412fada" name="a02bec57c3d9431edc5aba7767412fada"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02bec57c3d9431edc5aba7767412fada">&#9670;&#160;</a></span>params_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> params_offset = <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> * threadIdx.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91f4b44299546e7bea8da7a89cff344e" name="a91f4b44299546e7bea8da7a89cff344e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91f4b44299546e7bea8da7a89cff344e">&#9670;&#160;</a></span>row_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> row_start</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a777533551368ab4bfca5c1c8083e3e89" name="a777533551368ab4bfca5c1c8083e3e89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a777533551368ab4bfca5c1c8083e3e89">&#9670;&#160;</a></span>SAVED_PARAMS_CNT</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> SAVED_PARAMS_CNT = 8</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a843d0aea30f5cc9663eb720c3dd003ce" name="a843d0aea30f5cc9663eb720c3dd003ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a843d0aea30f5cc9663eb720c3dd003ce">&#9670;&#160;</a></span>smem</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__shared__ long smem[<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">NUM_PARAMS</a> *<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">NUM_WARPS</a>+<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad5a825be51026d8249ffccad954dbb5" name="aad5a825be51026d8249ffccad954dbb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad5a825be51026d8249ffccad954dbb5">&#9670;&#160;</a></span>STEP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb3518c2e8a95fe2496d295fe14b91df" name="abb3518c2e8a95fe2496d295fe14b91df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb3518c2e8a95fe2496d295fe14b91df">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a886f5e3baf03935340ae10c910916eb9" name="a886f5e3baf03935340ae10c910916eb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a886f5e3baf03935340ae10c910916eb9">&#9670;&#160;</a></span>t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int32_t t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a557e928f55b7bdfe7824b6ddd0fcfbff" name="a557e928f55b7bdfe7824b6ddd0fcfbff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a557e928f55b7bdfe7824b6ddd0fcfbff">&#9670;&#160;</a></span>table_warp_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int32_t table_warp_id</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aecbb8e032512c651d4a4d6c76c201528" name="aecbb8e032512c651d4a4d6c76c201528"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecbb8e032512c651d4a4d6c76c201528">&#9670;&#160;</a></span>total_L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const auto total_L = <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>[(<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">t</a> + 1) * <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>] - <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>[<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">t</a> * <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">B</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a52ea0aaf4b80b614a42c9d62c2b17730" name="a52ea0aaf4b80b614a42c9d62c2b17730"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52ea0aaf4b80b614a42c9d62c2b17730">&#9670;&#160;</a></span>total_load_D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> total_load_D</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7b80f1189d1874ab861378ed299a21e" name="aa7b80f1189d1874ab861378ed299a21e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7b80f1189d1874ab861378ed299a21e">&#9670;&#160;</a></span>use_lxu_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">use_lxu_cache = USE_LXU_CACHE</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77d267b92511473228e629909dcb8a07" name="a77d267b92511473228e629909dcb8a07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77d267b92511473228e629909dcb8a07">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af57bf37dbd6a53004f468edeb5020860" name="af57bf37dbd6a53004f468edeb5020860"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af57bf37dbd6a53004f468edeb5020860">&#9670;&#160;</a></span>VEC_WIDTH</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> VEC_WIDTH = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba904c170660e349edfb178490ec1ec1" name="aba904c170660e349edfb178490ec1ec1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba904c170660e349edfb178490ec1ec1">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aa4ec0a3620e915289c174bc6ce3108" name="a5aa4ec0a3620e915289c174bc6ce3108"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aa4ec0a3620e915289c174bc6ce3108">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html b/gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html
new file mode 100644
index 000000000..6425c81a4
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html
@@ -0,0 +1,565 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a285553bb10df1164c041a1cb931b44a8" name="a285553bb10df1164c041a1cb931b44a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a285553bb10df1164c041a1cb931b44a8">&#9670;&#160;</a></span>DISPATCH_KERNEL_FOR_CACHE_CASE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_KERNEL_FOR_CACHE_CASE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">CACHE_CASE_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">false</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">false</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (CACHE_CASE_ == <span class="keyword">true</span>) {                                      \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keyword">auto</span> _TUseCache = <span class="keyword">true</span>;                             \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abe51720e514c6a9d39c95bc2c72e1cd6" name="abe51720e514c6a9d39c95bc2c72e1cd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe51720e514c6a9d39c95bc2c72e1cd6">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">MAX_D_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a805da9b1e5a1c6e28a4d4c99501d1b1a" name="a805da9b1e5a1c6e28a4d4c99501d1b1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a805da9b1e5a1c6e28a4d4c99501d1b1a">&#9670;&#160;</a></span>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DD_, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  [&amp;] {                                                                        \</div>
+<div class="line">    if (DD_ &lt;= 4) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 4;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 8) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 8;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 16) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 16;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    if (DD_ &lt;= 32) {                                         \</div>
+<div class="line">      <span class="keyword">constexpr</span> <span class="keywordtype">int</span> kEmbeddingSize = 32;                     \</div>
+<div class="line">      <span class="keywordflow">return</span> __VA_ARGS__();                                                    \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    <span class="keywordflow">return</span>;                                                                    \</div>
+<div class="line">  }()</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a993a3437f132715df009e8cdd7a12806" name="a993a3437f132715df009e8cdd7a12806"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a993a3437f132715df009e8cdd7a12806">&#9670;&#160;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , typename index_t , bool use_lxu_cache&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">2048/</td>          <td class="paramname"><span class="paramname"><em>kForwardMaxThreads</em></span>&#160;) const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b7f13ed95640b7a8e42d3f0ff3f2b46" name="a0b7f13ed95640b7a8e42d3f0ff3f2b46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b7f13ed95640b7a8e42d3f0ff3f2b46">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_vbe_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_vbe_cuda </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ad0a8e9e782f3a3f177d6791f9ee9b866" name="ad0a8e9e782f3a3f177d6791f9ee9b866"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0a8e9e782f3a3f177d6791f9ee9b866">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1cf44edc754c1d53c702015bfb974d77" name="a1cf44edc754c1d53c702015bfb974d77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1cf44edc754c1d53c702015bfb974d77">&#9670;&#160;</a></span>D_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const D_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91261c861a9c2e7ff7936dba196c034e" name="a91261c861a9c2e7ff7936dba196c034e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91261c861a9c2e7ff7936dba196c034e">&#9670;&#160;</a></span>fd_num_warps_per_table</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_table</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79f22b62b5882d0d141e2797331c3262" name="a79f22b62b5882d0d141e2797331c3262"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79f22b62b5882d0d141e2797331c3262">&#9670;&#160;</a></span>index_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const index_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6df12c527b79f006699968f24d774fcb" name="a6df12c527b79f006699968f24d774fcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df12c527b79f006699968f24d774fcb">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8dd6cf2b56fe463818d54d1317d9fff" name="ab8dd6cf2b56fe463818d54d1317d9fff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8dd6cf2b56fe463818d54d1317d9fff">&#9670;&#160;</a></span>lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a68ceee01fdfd5d0a31881988c095ae" name="a6a68ceee01fdfd5d0a31881988c095ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a68ceee01fdfd5d0a31881988c095ae">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c99f8e3e9c924534ce3075312e4b34a" name="a5c99f8e3e9c924534ce3075312e4b34a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c99f8e3e9c924534ce3075312e4b34a">&#9670;&#160;</a></span>max_D_cache</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> max_D_cache</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3fdf1a4014f7660a86139d200368f74f" name="a3fdf1a4014f7660a86139d200368f74f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fdf1a4014f7660a86139d200368f74f">&#9670;&#160;</a></span>mean_pooling</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool mean_pooling</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f8b83bcbf1f5b73f650fb246a02a2fe" name="a7f8b83bcbf1f5b73f650fb246a02a2fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f8b83bcbf1f5b73f650fb246a02a2fe">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85cde3a0577b44c06afc80d802b86dc6" name="a85cde3a0577b44c06afc80d802b86dc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85cde3a0577b44c06afc80d802b86dc6">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const const int32_t* __restrict__ const output_t* __restrict__ const output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb3518c2e8a95fe2496d295fe14b91df" name="abb3518c2e8a95fe2496d295fe14b91df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb3518c2e8a95fe2496d295fe14b91df">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77d267b92511473228e629909dcb8a07" name="a77d267b92511473228e629909dcb8a07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77d267b92511473228e629909dcb8a07">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba904c170660e349edfb178490ec1ec1" name="aba904c170660e349edfb178490ec1ec1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba904c170660e349edfb178490ec1ec1">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const bool const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> const <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> const index_t* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* __restrict__ const const index_t* __restrict__ const const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* __restrict__ const const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* __restrict__ const weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aa4ec0a3620e915289c174bc6ce3108" name="a5aa4ec0a3620e915289c174bc6ce3108"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aa4ec0a3620e915289c174bc6ce3108">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">const emb_t* __restrict__ const const cache_t* __restrict__ const const int32_t* __restrict__ const weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html b/gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html
new file mode 100644
index 000000000..d32fa3766
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html
@@ -0,0 +1,238 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__op__registration_8h.html">codegen/embedding_op_registration.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aafe550801c2d2c26cf43ccef3a6ac0e9" name="aafe550801c2d2c26cf43ccef3a6ac0e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aafe550801c2d2c26cf43ccef3a6ac0e9">&#9670;&#160;</a></span>split_embedding_codegen_forward_weighted_vbe_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_forward_weighted_vbe_meta </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_row_output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask_int64</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_experimental</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__forward__split__weighted__vbe__kernel_8cu.html b/gen__embedding__forward__split__weighted__vbe__kernel_8cu.html
new file mode 100644
index 000000000..578865d72
--- /dev/null
+++ b/gen__embedding__forward__split__weighted__vbe__kernel_8cu.html
@@ -0,0 +1,1303 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_forward_split_weighted_vbe_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_forward_split_weighted_vbe_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__forward__template__helpers_8cuh.html">codegen/embedding_forward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2b31286ebfaa57f2a8e43418dc0cc2bc" name="a2b31286ebfaa57f2a8e43418dc0cc2bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b31286ebfaa57f2a8e43418dc0cc2bc">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , typename output_t , bool use_lxu_cache, typename index_t , size_t kMaxVecsPerThread, size_t kThreadGroupSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e5e2097a867f5ac61d945360d16e1ed" name="a4e5e2097a867f5ac61d945360d16e1ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e5e2097a867f5ac61d945360d16e1ed">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">kForwardMaxThreads</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab89613a21534acb8fe6c89a570467067" name="ab89613a21534acb8fe6c89a570467067"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab89613a21534acb8fe6c89a570467067">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[1/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3947e811d4918cac9bd3e70fcce80126" name="a3947e811d4918cac9bd3e70fcce80126"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3947e811d4918cac9bd3e70fcce80126">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[2/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a039318e8b0ec66d135fcd3f9b16a4228" name="a039318e8b0ec66d135fcd3f9b16a4228"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a039318e8b0ec66d135fcd3f9b16a4228">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[3/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af4df56b4d05360a4cc547377c34a79dc" name="af4df56b4d05360a4cc547377c34a79dc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4df56b4d05360a4cc547377c34a79dc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[4/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69613a0e40ad1ddb76bcf494c6eba437" name="a69613a0e40ad1ddb76bcf494c6eba437"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69613a0e40ad1ddb76bcf494c6eba437">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[5/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a094950f659c8dd934ea88348ed79dd2e" name="a094950f659c8dd934ea88348ed79dd2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a094950f659c8dd934ea88348ed79dd2e">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[6/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a51039fcb60604faf673a12fc9962de52" name="a51039fcb60604faf673a12fc9962de52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a51039fcb60604faf673a12fc9962de52">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[7/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a39c7a917fc74982eb89a2a6770d0be92" name="a39c7a917fc74982eb89a2a6770d0be92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a39c7a917fc74982eb89a2a6770d0be92">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[8/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7745e0ade9aa98a7050c6a76c59e88bc" name="a7745e0ade9aa98a7050c6a76c59e88bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7745e0ade9aa98a7050c6a76c59e88bc">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[9/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7bb186f4330ddb51696533419c414b5a" name="a7bb186f4330ddb51696533419c414b5a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7bb186f4330ddb51696533419c414b5a">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[10/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acf2c859f1eecda3ddf9ec37754afe3e4" name="acf2c859f1eecda3ddf9ec37754afe3e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf2c859f1eecda3ddf9ec37754afe3e4">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[11/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6141ba5c93e5aea872230ecd4a0d878" name="ad6141ba5c93e5aea872230ecd4a0d878"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6141ba5c93e5aea872230ecd4a0d878">&#9670;&#160;</a></span>kWarpSize() <span class="overload">[12/12]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template kWarpSize </td>
+          <td>(</td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a0ad31f76c1f9349ef8b21ca138e897cc" name="a0ad31f76c1f9349ef8b21ca138e897cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ad31f76c1f9349ef8b21ca138e897cc">&#9670;&#160;</a></span>false</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template false</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4ebc0de2e60165af8333b6f4eab3e70" name="ac4ebc0de2e60165af8333b6f4eab3e70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4ebc0de2e60165af8333b6f4eab3e70">&#9670;&#160;</a></span>int64_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template int64_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5baa8672e7ddf3cefb150e4660d86a" name="acc5baa8672e7ddf3cefb150e4660d86a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5baa8672e7ddf3cefb150e4660d86a">&#9670;&#160;</a></span>true</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template true</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html b/gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..10140acec
--- /dev/null
+++ b/gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html
@@ -0,0 +1,214 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_adagrad_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_adagrad_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="aae2b7a37c2c14a8e8575336d88932f5e" name="aae2b7a37c2c14a8e8575336d88932f5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae2b7a37c2c14a8e8575336d88932f5e">&#9670;&#160;</a></span>split_adagrad_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_adagrad_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__adam__split__device__kernel_8cuh.html b/gen__embedding__optimizer__adam__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..0721e547d
--- /dev/null
+++ b/gen__embedding__optimizer__adam__split__device__kernel_8cuh.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_adam_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_adam_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a415ebd6751961f1e6826cfe2712cc85e" name="a415ebd6751961f1e6826cfe2712cc85e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a415ebd6751961f1e6826cfe2712cc85e">&#9670;&#160;</a></span>split_adam_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_adam_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html b/gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..fc231ce61
--- /dev/null
+++ b/gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a9263ef077d631b455021b5cfe68d9632" name="a9263ef077d631b455021b5cfe68d9632"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9263ef077d631b455021b5cfe68d9632">&#9670;&#160;</a></span>split_approx_rowwise_adagrad_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_approx_rowwise_adagrad_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html b/gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..ae6ec78e8
--- /dev/null
+++ b/gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html
@@ -0,0 +1,324 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a2f7931888711cbd1dff1f7fda564b3a5" name="a2f7931888711cbd1dff1f7fda564b3a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f7931888711cbd1dff1f7fda564b3a5">&#9670;&#160;</a></span>split_approx_rowwise_adagrad_with_counter_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_approx_rowwise_adagrad_with_counter_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html b/gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..9cb5835ec
--- /dev/null
+++ b/gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a30fdc78bf391825590b69585779a9baf" name="a30fdc78bf391825590b69585779a9baf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30fdc78bf391825590b69585779a9baf">&#9670;&#160;</a></span>split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html b/gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..aaea8c863
--- /dev/null
+++ b/gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html
@@ -0,0 +1,189 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="abcf3f2a323ec4155270a5fcfffecd462" name="abcf3f2a323ec4155270a5fcfffecd462"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcf3f2a323ec4155270a5fcfffecd462">&#9670;&#160;</a></span>split_approx_sgd_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_approx_sgd_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__dense__split__device__kernel_8cuh.html b/gen__embedding__optimizer__dense__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..09a636096
--- /dev/null
+++ b/gen__embedding__optimizer__dense__split__device__kernel_8cuh.html
@@ -0,0 +1,189 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_dense_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_dense_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a9a55851e1eec2af9f174c94e138a4aa7" name="a9a55851e1eec2af9f174c94e138a4aa7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a55851e1eec2af9f174c94e138a4aa7">&#9670;&#160;</a></span>split_dense_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_dense_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>unused</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html b/gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..8de3859f2
--- /dev/null
+++ b/gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_lamb_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_lamb_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a2952f72a1e3f88f38246d2954dbee2b1" name="a2952f72a1e3f88f38246d2954dbee2b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2952f72a1e3f88f38246d2954dbee2b1">&#9670;&#160;</a></span>split_lamb_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_lamb_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html b/gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..28b8a3213
--- /dev/null
+++ b/gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="af488b727a53946064f329ad042bbf73a" name="af488b727a53946064f329ad042bbf73a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af488b727a53946064f329ad042bbf73a">&#9670;&#160;</a></span>split_lars_sgd_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_lars_sgd_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eta</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__none__split__device__kernel_8cuh.html b/gen__embedding__optimizer__none__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..9bde84f22
--- /dev/null
+++ b/gen__embedding__optimizer__none__split__device__kernel_8cuh.html
@@ -0,0 +1,194 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_none_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_none_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a2cb53295ff111df7a98fbc7573469c61" name="a2cb53295ff111df7a98fbc7573469c61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cb53295ff111df7a98fbc7573469c61">&#9670;&#160;</a></span>split_none_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_none_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html b/gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..ed7e28aaf
--- /dev/null
+++ b/gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a278aedfb9f50b7f5486dbc97e87cab8e" name="a278aedfb9f50b7f5486dbc97e87cab8e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a278aedfb9f50b7f5486dbc97e87cab8e">&#9670;&#160;</a></span>split_partial_rowwise_adam_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_partial_rowwise_adam_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html b/gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..d59e81e46
--- /dev/null
+++ b/gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a950ea306504584d6cc2050caf007295c" name="a950ea306504584d6cc2050caf007295c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a950ea306504584d6cc2050caf007295c">&#9670;&#160;</a></span>split_partial_rowwise_lamb_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_partial_rowwise_lamb_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html b/gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html
new file mode 100644
index 000000000..a3f41433b
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html
@@ -0,0 +1,232 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_split.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_split.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a21a7b48ff9760f1aa13e260de4b7d2a9" name="a21a7b48ff9760f1aa13e260de4b7d2a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21a7b48ff9760f1aa13e260de4b7d2a9">&#9670;&#160;</a></span>split_embedding_rowwise_adagrad_update()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void split_embedding_rowwise_adagrad_update </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html b/gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html
new file mode 100644
index 000000000..fe330f877
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html
@@ -0,0 +1,207 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab369ffc9f9e69eca82b24131247ecfcf" name="ab369ffc9f9e69eca82b24131247ecfcf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab369ffc9f9e69eca82b24131247ecfcf">&#9670;&#160;</a></span>split_embedding_rowwise_adagrad_update()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">__launch_bounds__</a>(kMaxThreads) void split_rowwise_adagrad_update_kernel(at void split_embedding_rowwise_adagrad_update </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_dev_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html b/gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..1b00e6ab9
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html
@@ -0,0 +1,229 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="aab5a925ed0316c38c00fcce3b1adc50a" name="aab5a925ed0316c38c00fcce3b1adc50a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab5a925ed0316c38c00fcce3b1adc50a">&#9670;&#160;</a></span>split_rowwise_adagrad_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_rowwise_adagrad_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html b/gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html
new file mode 100644
index 000000000..99ecc5858
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html
@@ -0,0 +1,434 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="ab54a42bb86f9a913d382b4938e3b023f" name="ab54a42bb86f9a913d382b4938e3b023f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab54a42bb86f9a913d382b4938e3b023f">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34f0bcf2172442db1cd089b529e81d11" name="a34f0bcf2172442db1cd089b529e81d11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34f0bcf2172442db1cd089b529e81d11">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a7ac7f1200f9cc67310a434e6da2bc8ae" name="a7ac7f1200f9cc67310a434e6da2bc8ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ac7f1200f9cc67310a434e6da2bc8ae">&#9670;&#160;</a></span>dev_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; dev_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3af1a7fb1e7c77ec014031cd2e1d0837" name="a3af1a7fb1e7c77ec014031cd2e1d0837"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3af1a7fb1e7c77ec014031cd2e1d0837">&#9670;&#160;</a></span>eps</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> eps</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6df94b891e47f19e9fa76b529e49cdda" name="a6df94b891e47f19e9fa76b529e49cdda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6df94b891e47f19e9fa76b529e49cdda">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af8b6c324711f37bf86e87d3d74f65c2e" name="af8b6c324711f37bf86e87d3d74f65c2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8b6c324711f37bf86e87d3d74f65c2e">&#9670;&#160;</a></span>grad_dev_indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; grad_dev_indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a18e7685a5fc29b232d08a33a75c44ca2" name="a18e7685a5fc29b232d08a33a75c44ca2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18e7685a5fc29b232d08a33a75c44ca2">&#9670;&#160;</a></span>grad_dev_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; grad_dev_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a63994c436795f993c09c5626acfb05" name="a4a63994c436795f993c09c5626acfb05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a63994c436795f993c09c5626acfb05">&#9670;&#160;</a></span>kWarpSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ kWarpSize</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a205f082b0bb0cee9301dc4e5d0521b5c" name="a205f082b0bb0cee9301dc4e5d0521b5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a205f082b0bb0cee9301dc4e5d0521b5c">&#9670;&#160;</a></span>learning_rate</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> learning_rate</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac2986832e167da4c333ea92ea3deff2" name="aac2986832e167da4c333ea92ea3deff2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac2986832e167da4c333ea92ea3deff2">&#9670;&#160;</a></span>lxu_cache_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; lxu_cache_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4b79f2e1c1afb0ee9291f6d406038bd7" name="a4b79f2e1c1afb0ee9291f6d406038bd7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b79f2e1c1afb0ee9291f6d406038bd7">&#9670;&#160;</a></span>max_D</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t max_D</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5dad34a0e8f59dfa6c15365b5f987ba6" name="a5dad34a0e8f59dfa6c15365b5f987ba6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5dad34a0e8f59dfa6c15365b5f987ba6">&#9670;&#160;</a></span>max_norm</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> max_norm</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9476d367260e52c6a3bd31824072c06" name="af9476d367260e52c6a3bd31824072c06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9476d367260e52c6a3bd31824072c06">&#9670;&#160;</a></span>momentum1_dev</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd2978ce7ef7477233a8bda0aacde4e2" name="afd2978ce7ef7477233a8bda0aacde4e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd2978ce7ef7477233a8bda0aacde4e2">&#9670;&#160;</a></span>momentum1_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; momentum1_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a10602f96a8b9264528834b6a1763ffb1" name="a10602f96a8b9264528834b6a1763ffb1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10602f96a8b9264528834b6a1763ffb1">&#9670;&#160;</a></span>momentum1_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f5ed4cb8fcb526d7476413516fd546f" name="a3f5ed4cb8fcb526d7476413516fd546f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f5ed4cb8fcb526d7476413516fd546f">&#9670;&#160;</a></span>momentum1_uvm</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a219575ab5da90e4fa43bbb6df6e7831b" name="a219575ab5da90e4fa43bbb6df6e7831b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a219575ab5da90e4fa43bbb6df6e7831b">&#9670;&#160;</a></span>sorted_lxu_cache_locations</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5cc1b5faf7430930527acfac8e6b8068" name="a5cc1b5faf7430930527acfac8e6b8068"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5cc1b5faf7430930527acfac8e6b8068">&#9670;&#160;</a></span>stochastic_rounding</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool stochastic_rounding</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afff795d859ebc4c98b059d7e04dd8ebd" name="afff795d859ebc4c98b059d7e04dd8ebd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afff795d859ebc4c98b059d7e04dd8ebd">&#9670;&#160;</a></span>stochastic_rounding_philox_args</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState stochastic_rounding_philox_args</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02abd4b4f2f2745d8c6e8c696d70c025" name="a02abd4b4f2f2745d8c6e8c696d70c025"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02abd4b4f2f2745d8c6e8c696d70c025">&#9670;&#160;</a></span>uvm_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; uvm_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a55c90ffc934511c5239912ee28729c08" name="a55c90ffc934511c5239912ee28729c08"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55c90ffc934511c5239912ee28729c08">&#9670;&#160;</a></span>weight_decay</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> weight_decay</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a29382d4f16f27e176ace0d7a6c14bedd" name="a29382d4f16f27e176ace0d7a6c14bedd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29382d4f16f27e176ace0d7a6c14bedd">&#9670;&#160;</a></span>weight_decay_mode</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; const int32_t bool at::PhiloxCudaState at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; at::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> weight_decay_mode</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a68c2c016f330babab668514e78cb3bf1" name="a68c2c016f330babab668514e78cb3bf1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68c2c016f330babab668514e78cb3bf1">&#9670;&#160;</a></span>weights_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; weights_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9987071f2ac942c5d6c47d628b971738" name="a9987071f2ac942c5d6c47d628b971738"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9987071f2ac942c5d6c47d628b971738">&#9670;&#160;</a></span>weights_placements</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">template __global__ at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; at::PackedTensorAccessor64&lt;at::Half, 2, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt; const at::PackedTensorAccessor32&lt;int32_t, 1, at::RestrictPtrTraits&gt; weights_placements</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html b/gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..428c91051
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html
@@ -0,0 +1,324 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="aa7708111891a0d2eeeda7881715427bb" name="aa7708111891a0d2eeeda7881715427bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7708111891a0d2eeeda7881715427bb">&#9670;&#160;</a></span>split_rowwise_adagrad_with_counter_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_rowwise_adagrad_with_counter_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html b/gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..e16f54db2
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="ae265a93446a3c4665e857bc8b2f7d8d7" name="ae265a93446a3c4665e857bc8b2f7d8d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae265a93446a3c4665e857bc8b2f7d8d7">&#9670;&#160;</a></span>split_rowwise_adagrad_with_weight_decay_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_rowwise_adagrad_with_weight_decay_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html b/gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..bbc0f10cf
--- /dev/null
+++ b/gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a54b1af3a7b8db5fce48d934e47656c50" name="a54b1af3a7b8db5fce48d934e47656c50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54b1af3a7b8db5fce48d934e47656c50">&#9670;&#160;</a></span>split_rowwise_weighted_adagrad_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_rowwise_weighted_adagrad_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt;, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html b/gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html
new file mode 100644
index 000000000..9b92e08e8
--- /dev/null
+++ b/gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html
@@ -0,0 +1,189 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/gen_embedding_optimizer_sgd_split_device_kernel.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_b4b8bd075f03e0fff4167d5f80e92046.html">_skbuild</a></li><li class="navelem"><a class="el" href="dir_a27d41c4018669c20f452802c44efb2d.html">linux-x86_64-3.12</a></li><li class="navelem"><a class="el" href="dir_d42b091ea9351334e82212d21cbafb15.html">cmake-build</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gen_embedding_optimizer_sgd_split_device_kernel.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="ab768e225fdd76b64ab5c9114ed3cc7cc" name="ab768e225fdd76b64ab5c9114ed3cc7cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab768e225fdd76b64ab5c9114ed3cc7cc">&#9670;&#160;</a></span>split_sgd_table_update_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename emb_t , typename cache_t , size_t kMaxVecsPerThread, int32_t kThreadGroupSize = kWarpSize, int32_t VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> void split_sgd_table_update_kernel </td>
+          <td>(</td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; cache_t, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; *</td>          <td class="paramname"><span class="paramname"><em>grad_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const at::PhiloxCudaState &amp;</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>cache_loc_run_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>shared_weight_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/general/BuildInstructions.html b/general/BuildInstructions.html
index aa470130b..f42c19250 100644
--- a/general/BuildInstructions.html
+++ b/general/BuildInstructions.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Installation Instructions" href="InstallationInstructions.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul class="current">
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,9 +354,9 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="build-instructions">
-<h1>Build Instructions<a class="headerlink" href="#build-instructions" title="Permalink to this headline">¶</a></h1>
-<p><strong>Note:</strong> The most up-to-date instructions are embedded in a set of scripts
-bundled in the FBGEMM_GPU repo under
+<h1>Build Instructions<a class="headerlink" href="#build-instructions" title="Permalink to this heading">¶</a></h1>
+<p><strong>Note:</strong> The most up-to-date build instructions are embedded in a set of
+scripts bundled in the FBGEMM_GPU repo under
 <a class="reference external" href="https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash">setup_env.bash</a>.</p>
 <p>The general steps for building FBGEMM_GPU are as follows:</p>
 <ol class="arabic simple">
@@ -363,9 +366,9 @@ <h1>Build Instructions<a class="headerlink" href="#build-instructions" title="Pe
 <li><p>Run the build script.</p></li>
 </ol>
 <section id="set-up-an-isolated-build-environment">
-<span id="fbgemm-gpu-docs-build-setup-env"></span><h2>Set Up an Isolated Build Environment<a class="headerlink" href="#set-up-an-isolated-build-environment" title="Permalink to this headline">¶</a></h2>
+<span id="fbgemm-gpu-docs-build-setup-env"></span><h2>Set Up an Isolated Build Environment<a class="headerlink" href="#set-up-an-isolated-build-environment" title="Permalink to this heading">¶</a></h2>
 <section id="install-miniconda">
-<h3>Install Miniconda<a class="headerlink" href="#install-miniconda" title="Permalink to this headline">¶</a></h3>
+<h3>Install Miniconda<a class="headerlink" href="#install-miniconda" title="Permalink to this heading">¶</a></h3>
 <p>Setting up a <a class="reference external" href="https://docs.conda.io/en/latest/miniconda.html">Miniconda</a>
 environment is recommended for reproducible builds:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="nb">export</span><span class="w"> </span><span class="nv">PLATFORM_NAME</span><span class="o">=</span><span class="s2">&quot;</span><span class="k">$(</span>uname<span class="w"> </span>-s<span class="k">)</span><span class="s2">-</span><span class="k">$(</span>uname<span class="w"> </span>-m<span class="k">)</span><span class="s2">&quot;</span>
@@ -390,7 +393,7 @@ <h3>Install Miniconda<a class="headerlink" href="#install-miniconda" title="Perm
 inside a Conda environment.</p>
 </section>
 <section id="set-up-the-conda-environment">
-<h3>Set Up the Conda Environment<a class="headerlink" href="#set-up-the-conda-environment" title="Permalink to this headline">¶</a></h3>
+<h3>Set Up the Conda Environment<a class="headerlink" href="#set-up-the-conda-environment" title="Permalink to this heading">¶</a></h3>
 <p>Create a Conda environment with the specified Python version:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="nv">env_name</span><span class="o">=</span>&lt;ENV<span class="w"> </span>NAME&gt;
 <span class="nv">python_version</span><span class="o">=</span><span class="m">3</span>.12
@@ -406,20 +409,20 @@ <h3>Set Up the Conda Environment<a class="headerlink" href="#set-up-the-conda-en
 </section>
 </section>
 <section id="set-up-for-cpu-only-build">
-<h2>Set Up for CPU-Only Build<a class="headerlink" href="#set-up-for-cpu-only-build" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up for CPU-Only Build<a class="headerlink" href="#set-up-for-cpu-only-build" title="Permalink to this heading">¶</a></h2>
 <p>Follow the instructions for setting up the Conda environment at
 <a class="reference internal" href="#fbgemm-gpu-docs-build-setup-env"><span class="std std-ref">Set Up an Isolated Build Environment</span></a>, followed by
 <a class="reference internal" href="#fbgemm-gpu-docs-build-setup-tools-install"><span class="std std-ref">Install the Build Tools</span></a>.</p>
 </section>
 <section id="set-up-for-cuda-build">
-<h2>Set Up for CUDA Build<a class="headerlink" href="#set-up-for-cuda-build" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up for CUDA Build<a class="headerlink" href="#set-up-for-cuda-build" title="Permalink to this heading">¶</a></h2>
 <p>The CUDA build of FBGEMM_GPU requires a recent version of <code class="docutils literal notranslate"><span class="pre">nvcc</span></code> <strong>that
 supports compute capability 3.5+</strong>. Setting the machine up for CUDA builds of
 FBGEMM_GPU can be done either through pre-built Docker images or through Conda
 installation on bare metal. Note that neither a GPU nor the NVIDIA drivers need
 to be present for builds, since they are only used at runtime.</p>
 <section id="cuda-docker-image">
-<span id="fbgemm-gpu-docs-build-setup-cuda-image"></span><h3>CUDA Docker Image<a class="headerlink" href="#cuda-docker-image" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-setup-cuda-image"></span><h3>CUDA Docker Image<a class="headerlink" href="#cuda-docker-image" title="Permalink to this heading">¶</a></h3>
 <p>For setups through Docker, simply pull the pre-installed <a class="reference external" href="https://hub.docker.com/r/nvidia/cuda">Docker image
 for CUDA</a> for the desired Linux
 distribution and CUDA version.</p>
@@ -432,7 +435,7 @@ <h2>Set Up for CUDA Build<a class="headerlink" href="#set-up-for-cuda-build" tit
 reproducible build environment.</p>
 </section>
 <section id="install-cuda">
-<span id="fbgemm-gpu-docs-build-setup-cuda-install"></span><h3>Install CUDA<a class="headerlink" href="#install-cuda" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-setup-cuda-install"></span><h3>Install CUDA<a class="headerlink" href="#install-cuda" title="Permalink to this heading">¶</a></h3>
 <p>Install the full CUDA package through Conda, which includes
 <a class="reference external" href="https://developer.nvidia.com/nvidia-management-library-nvml">NVML</a>:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="nv">cuda_version</span><span class="o">=</span><span class="m">11</span>.7.1
@@ -449,7 +452,7 @@ <h2>Set Up for CUDA Build<a class="headerlink" href="#set-up-for-cuda-build" tit
 </div>
 </section>
 <section id="install-cudnn">
-<h3>Install cuDNN<a class="headerlink" href="#install-cudnn" title="Permalink to this headline">¶</a></h3>
+<h3>Install cuDNN<a class="headerlink" href="#install-cudnn" title="Permalink to this heading">¶</a></h3>
 <p><a class="reference external" href="https://developer.nvidia.com/cudnn">cuDNN</a> is a build-time
 dependency for the CUDA variant of FBGEMM_GPU. Download and extract the
 cuDNN package for the given CUDA version:</p>
@@ -464,12 +467,12 @@ <h3>Install cuDNN<a class="headerlink" href="#install-cudnn" title="Permalink to
 </section>
 </section>
 <section id="set-up-for-rocm-build">
-<h2>Set Up for ROCm Build<a class="headerlink" href="#set-up-for-rocm-build" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up for ROCm Build<a class="headerlink" href="#set-up-for-rocm-build" title="Permalink to this heading">¶</a></h2>
 <p>FBGEMM_GPU supports running on AMD (ROCm) devices. Setting the machine
 up for ROCm builds of FBGEMM_GPU can be done either through pre-built
 Docker images or through bare metal.</p>
 <section id="rocm-docker-image">
-<span id="fbgemm-gpu-docs-build-setup-rocm-image"></span><h3>ROCm Docker Image<a class="headerlink" href="#rocm-docker-image" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-setup-rocm-image"></span><h3>ROCm Docker Image<a class="headerlink" href="#rocm-docker-image" title="Permalink to this heading">¶</a></h3>
 <p>For setups through Docker, simply pull the pre-installed <a class="reference external" href="https://hub.docker.com/r/rocm/rocm-terminal">Minimal Docker
 image for ROCm</a> for the
 desired ROCm version:</p>
@@ -485,7 +488,7 @@ <h2>Set Up for ROCm Build<a class="headerlink" href="#set-up-for-rocm-build" tit
 reproducible build environment.</p>
 </section>
 <section id="install-rocm">
-<span id="fbgemm-gpu-docs-build-setup-rocm-install"></span><h3>Install ROCm<a class="headerlink" href="#install-rocm" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-setup-rocm-install"></span><h3>Install ROCm<a class="headerlink" href="#install-rocm" title="Permalink to this heading">¶</a></h3>
 <p>Install the full ROCm package through the operating system package
 manager. The full instructions can be found in the <a class="reference external" href="https://rocm.docs.amd.com/en/latest/">ROCm installation
 guide</a>:</p>
@@ -507,7 +510,7 @@ <h2>Set Up for ROCm Build<a class="headerlink" href="#set-up-for-rocm-build" tit
 </div>
 </section>
 <section id="install-miopen">
-<h3>Install MIOpen<a class="headerlink" href="#install-miopen" title="Permalink to this headline">¶</a></h3>
+<h3>Install MIOpen<a class="headerlink" href="#install-miopen" title="Permalink to this heading">¶</a></h3>
 <p><a class="reference external" href="https://github.com/ROCmSoftwarePlatform/MIOpen">MIOpen</a> is a
 dependency for the ROCm variant of FBGEMM_GPU that needs to be
 installed:</p>
@@ -517,10 +520,10 @@ <h3>Install MIOpen<a class="headerlink" href="#install-miopen" title="Permalink
 </section>
 </section>
 <section id="install-the-build-tools">
-<span id="fbgemm-gpu-docs-build-setup-tools-install"></span><h2>Install the Build Tools<a class="headerlink" href="#install-the-build-tools" title="Permalink to this headline">¶</a></h2>
+<span id="fbgemm-gpu-docs-build-setup-tools-install"></span><h2>Install the Build Tools<a class="headerlink" href="#install-the-build-tools" title="Permalink to this heading">¶</a></h2>
 <p>The instructions in this section apply to builds for all variants of FBGEMM_GPU.</p>
 <section id="c-c-compiler">
-<h3>C/C++ Compiler<a class="headerlink" href="#c-c-compiler" title="Permalink to this headline">¶</a></h3>
+<h3>C/C++ Compiler<a class="headerlink" href="#c-c-compiler" title="Permalink to this heading">¶</a></h3>
 <p>Install a version of the GCC toolchain <strong>that supports C++17</strong>. Note that GCC
 (as opposed to Clang for example) is required for CUDA builds because NVIDIA’s
 <code class="docutils literal notranslate"><span class="pre">nvcc</span></code> relies on <code class="docutils literal notranslate"><span class="pre">gcc</span></code> and <code class="docutils literal notranslate"><span class="pre">g++</span></code> in the path. The <code class="docutils literal notranslate"><span class="pre">sysroot</span></code> package will
@@ -546,13 +549,14 @@ <h3>C/C++ Compiler<a class="headerlink" href="#c-c-compiler" title="Permalink to
 </div>
 </section>
 <section id="other-build-tools">
-<h3>Other Build Tools<a class="headerlink" href="#other-build-tools" title="Permalink to this headline">¶</a></h3>
+<h3>Other Build Tools<a class="headerlink" href="#other-build-tools" title="Permalink to this heading">¶</a></h3>
 <p>Install the other necessary build tools such as <code class="docutils literal notranslate"><span class="pre">ninja</span></code>, <code class="docutils literal notranslate"><span class="pre">cmake</span></code>, etc:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>conda<span class="w"> </span>install<span class="w"> </span>-n<span class="w"> </span><span class="s2">&quot;</span><span class="si">${</span><span class="nv">env_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="w"> </span>-y<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>click<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>cmake<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>hypothesis<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>jinja2<span class="w"> </span><span class="se">\</span>
+<span class="w">    </span>make<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>ninja<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>numpy<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>scikit-build<span class="w"> </span><span class="se">\</span>
@@ -562,13 +566,13 @@ <h3>Other Build Tools<a class="headerlink" href="#other-build-tools" title="Perm
 </section>
 </section>
 <section id="install-pytorch">
-<span id="fbgemm-gpu-docs-build-setup-pytorch-install"></span><h2>Install PyTorch<a class="headerlink" href="#install-pytorch" title="Permalink to this headline">¶</a></h2>
+<span id="fbgemm-gpu-docs-build-setup-pytorch-install"></span><h2>Install PyTorch<a class="headerlink" href="#install-pytorch" title="Permalink to this heading">¶</a></h2>
 <p>The official <a class="reference external" href="https://pytorch.org/get-started/locally/">PyTorch
 Homepage</a> contains the most
 authoritative instructions on how to install PyTorch, either through Conda or
 through PIP.</p>
 <section id="installation-through-conda">
-<h3>Installation Through Conda<a class="headerlink" href="#installation-through-conda" title="Permalink to this headline">¶</a></h3>
+<h3>Installation Through Conda<a class="headerlink" href="#installation-through-conda" title="Permalink to this heading">¶</a></h3>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># Install the latest nightly</span>
 conda<span class="w"> </span>install<span class="w"> </span>-n<span class="w"> </span><span class="s2">&quot;</span><span class="si">${</span><span class="nv">env_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="w"> </span>-y<span class="w"> </span>pytorch<span class="w"> </span>-c<span class="w"> </span>pytorch-nightly
 
@@ -591,7 +595,7 @@ <h3>Installation Through Conda<a class="headerlink" href="#installation-through-
 PyTorch.</p>
 </section>
 <section id="installation-through-pytorch-pip">
-<h3>Installation Through PyTorch PIP<a class="headerlink" href="#installation-through-pytorch-pip" title="Permalink to this headline">¶</a></h3>
+<h3>Installation Through PyTorch PIP<a class="headerlink" href="#installation-through-pytorch-pip" title="Permalink to this heading">¶</a></h3>
 <p>Installing PyTorch through PyTorch PIP is recommended over Conda as it is much
 more deterministic and thus reliable:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># Install the latest nightly, CPU variant</span>
@@ -611,7 +615,7 @@ <h3>Installation Through PyTorch PIP<a class="headerlink" href="#installation-th
 channel as of time of writing.</p>
 </section>
 <section id="post-install-checks">
-<h3>Post-Install Checks<a class="headerlink" href="#post-install-checks" title="Permalink to this headline">¶</a></h3>
+<h3>Post-Install Checks<a class="headerlink" href="#post-install-checks" title="Permalink to this heading">¶</a></h3>
 <p>Verify the PyTorch installation (both version and variant) with an <code class="docutils literal notranslate"><span class="pre">import</span></code> test:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># Ensure that the package loads properly</span>
 conda<span class="w"> </span>run<span class="w"> </span>-n<span class="w"> </span><span class="s2">&quot;</span><span class="si">${</span><span class="nv">env_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="w"> </span>python<span class="w"> </span>-c<span class="w"> </span><span class="s2">&quot;import torch.distributed&quot;</span>
@@ -628,9 +632,9 @@ <h3>Post-Install Checks<a class="headerlink" href="#post-install-checks" title="
 </section>
 </section>
 <section id="build-the-fbgemm-gpu-package">
-<h2>Build the FBGEMM_GPU Package<a class="headerlink" href="#build-the-fbgemm-gpu-package" title="Permalink to this headline">¶</a></h2>
+<h2>Build the FBGEMM_GPU Package<a class="headerlink" href="#build-the-fbgemm-gpu-package" title="Permalink to this heading">¶</a></h2>
 <section id="preparing-the-build">
-<h3>Preparing the Build<a class="headerlink" href="#preparing-the-build" title="Permalink to this headline">¶</a></h3>
+<h3>Preparing the Build<a class="headerlink" href="#preparing-the-build" title="Permalink to this heading">¶</a></h3>
 <p>Clone the repo along with its submodules, and install the
 <code class="docutils literal notranslate"><span class="pre">requirements.txt</span></code>:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run inside the Conda environment !!</span>
@@ -648,7 +652,7 @@ <h3>Preparing the Build<a class="headerlink" href="#preparing-the-build" title="
 </div>
 </section>
 <section id="the-build-process">
-<h3>The Build Process<a class="headerlink" href="#the-build-process" title="Permalink to this headline">¶</a></h3>
+<h3>The Build Process<a class="headerlink" href="#the-build-process" title="Permalink to this heading">¶</a></h3>
 <p>The FBGEMM_GPU build process uses a scikit-build CMake-based build flow,
 and it keeps state across install runs. As such, builds can become stale
 and can cause problems when re-runs are attempted after a build failure
@@ -661,7 +665,7 @@ <h3>The Build Process<a class="headerlink" href="#the-build-process" title="Perm
 </div>
 </section>
 <section id="cuda-build">
-<h3>CUDA Build<a class="headerlink" href="#cuda-build" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-process-cuda"></span><h3>CUDA Build<a class="headerlink" href="#cuda-build" title="Permalink to this heading">¶</a></h3>
 <p>Building FBGEMM_GPU for CUDA requires both NVML and cuDNN to be installed and
 made available to the build through environment variables.  The presence of a
 CUDA device, however, is not required for building the package.</p>
@@ -716,7 +720,7 @@ <h3>CUDA Build<a class="headerlink" href="#cuda-build" title="Permalink to this
 </div>
 </section>
 <section id="rocm-build">
-<h3>ROCm Build<a class="headerlink" href="#rocm-build" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-process-rocm"></span><h3>ROCm Build<a class="headerlink" href="#rocm-build" title="Permalink to this heading">¶</a></h3>
 <p>For ROCm builds, <code class="docutils literal notranslate"><span class="pre">ROCM_PATH</span></code> and <code class="docutils literal notranslate"><span class="pre">PYTORCH_ROCM_ARCH</span></code> need to be specified.
 The presence of a ROCm device, however, is not required for building
 the package.</p>
@@ -752,7 +756,7 @@ <h3>ROCm Build<a class="headerlink" href="#rocm-build" title="Permalink to this
 </div>
 </section>
 <section id="cpu-only-build">
-<h3>CPU-Only Build<a class="headerlink" href="#cpu-only-build" title="Permalink to this headline">¶</a></h3>
+<span id="fbgemm-gpu-docs-build-process-cpu"></span><h3>CPU-Only Build<a class="headerlink" href="#cpu-only-build" title="Permalink to this heading">¶</a></h3>
 <p>For CPU-only builds, the <code class="docutils literal notranslate"><span class="pre">--cpu_only</span></code> flag needs to be specified.</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run in fbgemm_gpu/ directory inside the Conda environment !!</span>
 
@@ -774,11 +778,11 @@ <h3>CPU-Only Build<a class="headerlink" href="#cpu-only-build" title="Permalink
 </div>
 </section>
 <section id="post-build-checks-for-developers">
-<h3>Post-Build Checks (For Developers)<a class="headerlink" href="#post-build-checks-for-developers" title="Permalink to this headline">¶</a></h3>
+<h3>Post-Build Checks (For Developers)<a class="headerlink" href="#post-build-checks-for-developers" title="Permalink to this heading">¶</a></h3>
 <p>After the build completes, it is useful to run some checks that verify
 that the build is actually correct.</p>
 <section id="undefined-symbols-check">
-<h4>Undefined Symbols Check<a class="headerlink" href="#undefined-symbols-check" title="Permalink to this headline">¶</a></h4>
+<h4>Undefined Symbols Check<a class="headerlink" href="#undefined-symbols-check" title="Permalink to this heading">¶</a></h4>
 <p>Because FBGEMM_GPU contains a lot of Jinja and C++ template instantiations, it
 is important to make sure that there are no undefined symbols that are
 accidentally generated over the course of development:</p>
@@ -793,7 +797,7 @@ <h4>Undefined Symbols Check<a class="headerlink" href="#undefined-symbols-check"
 </div>
 </section>
 <section id="glibc-version-compatibility-check">
-<h4>GLIBC Version Compatibility Check<a class="headerlink" href="#glibc-version-compatibility-check" title="Permalink to this headline">¶</a></h4>
+<h4>GLIBC Version Compatibility Check<a class="headerlink" href="#glibc-version-compatibility-check" title="Permalink to this heading">¶</a></h4>
 <p>It is also useful to verify that the version numbers of GLIBCXX
 referenced as well as the availability of certain function symbols:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run in fbgemm_gpu/ directory inside the Conda environment !!</span>
@@ -918,11 +922,9 @@ <h4>GLIBC Version Compatibility Check<a class="headerlink" href="#glibc-version-
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/README.html b/general/DocsInstructions.html
similarity index 59%
rename from pytorch-sphinx-theme/README.html
rename to general/DocsInstructions.html
index 6b2f34587..160941105 100644
--- a/pytorch-sphinx-theme/README.html
+++ b/general/DocsInstructions.html
@@ -6,11 +6,11 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
-  <title>PyTorch Sphinx Theme &mdash; fbgemm 0.1.2 documentation</title>
+  <title>Contributing Documentation &mdash; fbgemm 0.1.2 documentation</title>
   
 
   
@@ -28,8 +28,12 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
+    <link rel="next" title="Table Batched Embedding (TBE) Operators" href="../python-api/table_batched_embedding_ops.html" />
+    <link rel="prev" title="Testing FBGEMM_GPU" href="TestInstructions.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -250,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="BuildInstructions.html">Build Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="InstallationInstructions.html">Installation Instructions</a></li>
+<li class="toctree-l1"><a class="reference internal" href="TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -312,13 +317,13 @@
       </li>
 
         
-      <li>PyTorch Sphinx Theme</li>
+      <li>Contributing Documentation</li>
     
     
       <li class="pytorch-breadcrumbs-aside">
         
             
-            <a href="../_sources/pytorch-sphinx-theme/README.md.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
+            <a href="../_sources/general/DocsInstructions.rst.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
           
         
       </li>
@@ -348,165 +353,207 @@
             <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
-  <section id="pytorch-sphinx-theme">
-<h1>PyTorch Sphinx Theme<a class="headerlink" href="#pytorch-sphinx-theme" title="Permalink to this headline">¶</a></h1>
-<p>Sphinx theme for <a class="reference external" href="https://pytorch.org/docs/master/torch.html">PyTorch Docs</a> and <a class="reference external" href="https://pytorch.org/tutorials">PyTorch Tutorials</a> based on the <a class="reference external" href="https://sphinx-rtd-theme.readthedocs.io/en/latest">Read the Docs Sphinx Theme</a>.</p>
-<section id="local-development">
-<h2>Local Development<a class="headerlink" href="#local-development" title="Permalink to this headline">¶</a></h2>
-<p>Run python setup:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">git</span><span class="w"> </span><span class="n">clone</span><span class="w"> </span><span class="n">https</span><span class="o">:</span><span class="c1">//github.com/pytorch/pytorch_sphinx_theme</span>
-<span class="n">pip</span><span class="w"> </span><span class="n">install</span><span class="w"> </span><span class="o">-</span><span class="n">e</span><span class="w"> </span><span class="n">pytorch_sphinx_theme</span>
-</pre></div>
-</div>
-<p>and install the dependencies using <code class="docutils literal notranslate"><span class="pre">pip</span> <span class="pre">install</span> <span class="pre">-r</span> <span class="pre">docs/requirements.txt</span></code></p>
-<p>In the root directory install the <code class="docutils literal notranslate"><span class="pre">package.json</span></code>:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="cp"># node version 8.4.0</span>
-<span class="n">yarn</span><span class="w"> </span><span class="n">install</span>
-</pre></div>
-</div>
-<p>If you have <code class="docutils literal notranslate"><span class="pre">npm</span></code> installed then run:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">npm</span><span class="w"> </span><span class="n">install</span>
-</pre></div>
-</div>
-<ul class="simple">
-<li><p>If you want to see generated documentation for <code class="docutils literal notranslate"><span class="pre">docs/demo</span></code> then create
-<code class="docutils literal notranslate"><span class="pre">.env.json</span></code> file and make it empty json file. Means <code class="docutils literal notranslate"><span class="pre">.env.json</span> <span class="pre">file</span></code> will
-contain</p></li>
-</ul>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="p">{}</span>
-</pre></div>
-</div>
-<p>Run grunt to build the html site and enable live reloading of the demo app at <code class="docutils literal notranslate"><span class="pre">localhost:1919</span></code>:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span>
-</pre></div>
-</div>
-<ul class="simple">
-<li><p>If you want to specify the project folder (docs or tutorial for which
-you want to see docs generated) then you need to specify it into <code class="docutils literal notranslate"><span class="pre">.env.json</span></code>
-file:</p></li>
-</ul>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="p">{</span>
-<span class="w">    </span><span class="s">&quot;DOCS_DIR&quot;</span><span class="o">:</span><span class="w"> </span><span class="s">&quot;docs/&quot;</span><span class="p">,</span>
-<span class="w">    </span><span class="s">&quot;TUTORIALS_DIR&quot;</span><span class="o">:</span><span class="w"> </span><span class="s">&quot;path/to/tutorial/directory&quot;</span>
-<span class="p">}</span>
-</pre></div>
-</div>
-<p>Run grunt to build the html site for docs:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span><span class="w"> </span><span class="o">--</span><span class="n">project</span><span class="o">=</span><span class="n">docs</span>
-</pre></div>
-</div>
-<p>and to build the html site for tutorial:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span><span class="w"> </span><span class="o">--</span><span class="n">project</span><span class="o">=</span><span class="n">tutorials</span>
-</pre></div>
-</div>
-<p>The resulting site is a demo.</p>
-</section>
-<section id="testing-your-changes-and-submitting-a-pr">
-<h2>Testing your changes and submitting a PR<a class="headerlink" href="#testing-your-changes-and-submitting-a-pr" title="Permalink to this headline">¶</a></h2>
-<p>When you are ready to submit a PR with your changes you can first test that your changes have been applied correctly against either the PyTorch Docs or Tutorials repo:</p>
+  <section id="contributing-documentation">
+<h1>Contributing Documentation<a class="headerlink" href="#contributing-documentation" title="Permalink to this heading">¶</a></h1>
+<p>FBGEMM_GPU provides extensive comments in its source files, which provide the
+most authoritative and up-to-date documentation available for the package.</p>
+<section id="building-the-api-documentation">
+<h2>Building the API Documentation<a class="headerlink" href="#building-the-api-documentation" title="Permalink to this heading">¶</a></h2>
+<p><strong>Note:</strong> The most up-to-date documentation build instructions are embedded in
+a set of scripts bundled in the FBGEMM_GPU repo under
+<a class="reference external" href="https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash">setup_env.bash</a>.</p>
+<p>The general steps for building the FBGEMM_GPU documentation are as follows:</p>
 <ol class="arabic simple">
-<li><p>Run the <code class="docutils literal notranslate"><span class="pre">grunt</span> <span class="pre">build</span></code> task on your branch and commit the build to Github.</p></li>
-<li><p>In your local docs or tutorials repo, remove any existing <code class="docutils literal notranslate"><span class="pre">pytorch_sphinx_theme</span></code> packages in the <code class="docutils literal notranslate"><span class="pre">src</span></code> folder (there should be a <code class="docutils literal notranslate"><span class="pre">pip-delete-this-directory.txt</span></code> file there)</p></li>
-<li><p>Clone the repo locally <code class="docutils literal notranslate"><span class="pre">git</span> <span class="pre">clone</span> <span class="pre">https://github.com/pytorch/pytorch_sphinx_theme</span></code></p></li>
-<li><p>Install <code class="docutils literal notranslate"><span class="pre">pytorch_sphinx_theme</span></code> by running <code class="docutils literal notranslate"><span class="pre">pip</span> <span class="pre">install</span> <span class="pre">-e</span> <span class="pre">pytorch_sphinx_theme</span></code></p></li>
-<li><p>Install the requirements <code class="docutils literal notranslate"><span class="pre">pip</span> <span class="pre">install</span> <span class="pre">-r</span> <span class="pre">requirements.txt</span></code></p></li>
-<li><p>Remove the current build. In the docs this is <code class="docutils literal notranslate"><span class="pre">make</span> <span class="pre">clean</span></code>, tutorials is <code class="docutils literal notranslate"><span class="pre">make</span> <span class="pre">clean-cache</span></code></p></li>
-<li><p>Build the static site. In the docs this is <code class="docutils literal notranslate"><span class="pre">make</span> <span class="pre">html</span></code>, tutorials is <code class="docutils literal notranslate"><span class="pre">make</span> <span class="pre">html-noplot</span></code></p></li>
-<li><p>Open the site and look around. In the docs open <code class="docutils literal notranslate"><span class="pre">docs/build/html/index.html</span></code>, in the tutorials open <code class="docutils literal notranslate"><span class="pre">_build/html.index.html</span></code></p></li>
+<li><p>Set up an isolated build environment.</p></li>
+<li><p>Build FBGEMM_GPU (CPU variant).</p></li>
+<li><p>Set up the documentation toolchain.</p></li>
+<li><p>Run documentation build scripts.</p></li>
 </ol>
-<p>If your changes have been applied successfully, remove the build commit from your branch and submit your PR.</p>
+<section id="set-up-build-environment">
+<h3>Set Up Build Environment<a class="headerlink" href="#set-up-build-environment" title="Permalink to this heading">¶</a></h3>
+<p>Follow the instructions for setting up the Conda environment at
+<a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-setup-env"><span class="std std-ref">Set Up an Isolated Build Environment</span></a>.</p>
 </section>
-<section id="publishing-the-theme">
-<h2>Publishing the theme<a class="headerlink" href="#publishing-the-theme" title="Permalink to this headline">¶</a></h2>
-<p>Before the new changes are visible in the theme the maintainer will need to run the build process:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span><span class="w"> </span><span class="n">build</span>
-</pre></div>
-</div>
-<p>Once that is successful commit the change to Github.</p>
-<section id="developing-locally-against-pytorch-docs-and-tutorials">
-<h3>Developing locally against PyTorch Docs and Tutorials<a class="headerlink" href="#developing-locally-against-pytorch-docs-and-tutorials" title="Permalink to this headline">¶</a></h3>
-<p>To be able to modify and preview the theme locally against the PyTorch Docs and/or the PyTorch Tutorials first clone the repositories:</p>
-<ul class="simple">
-<li><p><a class="reference external" href="https://github.com/pytorch/pytorch">PyTorch (Docs)</a></p></li>
-<li><p><a class="reference external" href="https://github.com/pytorch/tutorials">PyTorch Tutorials</a></p></li>
-</ul>
-<p>Then follow the instructions in each repository to make the docs.</p>
-<p>Once the docs have been successfully generated you should be able to run the following to create an html build.</p>
-<section id="docs">
-<h4>Docs<a class="headerlink" href="#docs" title="Permalink to this headline">¶</a></h4>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="cp"># in ./docs</span>
-<span class="n">make</span><span class="w"> </span><span class="n">html</span>
-</pre></div>
-</div>
+<section id="build-fbgemm-gpu">
+<h3>Build FBGEMM_GPU<a class="headerlink" href="#build-fbgemm-gpu" title="Permalink to this heading">¶</a></h3>
+<p>A build pass of FBGEMM_GPU is required for the documentation to be built
+correctly.  Follow the instructions in
+<a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-setup-tools-install"><span class="std std-ref">Install the Build Tools</span></a>, followed by
+<a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-process-cpu"><span class="std std-ref">CPU-Only Build</span></a>, to build FBGEMM_GPU (CPU variant).</p>
 </section>
-<section id="tutorials">
-<h4>Tutorials<a class="headerlink" href="#tutorials" title="Permalink to this headline">¶</a></h4>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="cp"># root directory</span>
-<span class="n">make</span><span class="w"> </span><span class="n">html</span>
-</pre></div>
-</div>
-<p>Once these are successful, navigate to the <code class="docutils literal notranslate"><span class="pre">conf.py</span></code> file in each project. In the Docs these are at <code class="docutils literal notranslate"><span class="pre">./docs/source</span></code>. The Tutorials one can be found in the root directory.</p>
-<p>In <code class="docutils literal notranslate"><span class="pre">conf.py</span></code> change the html theme to <code class="docutils literal notranslate"><span class="pre">pytorch_sphinx_theme</span></code> and point the html theme path to this repo’s local folder, which will end up looking something like:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span>html_theme = &#39;pytorch_sphinx_theme&#39;
-html_theme_path = [&quot;../../../pytorch_sphinx_theme&quot;]
+<section id="set-up-documentation-toolchain">
+<h3>Set Up Documentation Toolchain<a class="headerlink" href="#set-up-documentation-toolchain" title="Permalink to this heading">¶</a></h3>
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run inside the Conda environment !!</span>
+
+<span class="c1"># From the /fbgemm_gpu/ directory</span>
+<span class="nb">cd</span><span class="w"> </span>docs
+
+<span class="c1"># Install Sphinx and other docs tools</span>
+pip<span class="w"> </span>install<span class="w"> </span>-r<span class="w"> </span>requirements.txt
+
+<span class="c1"># Install Doxygen and Make</span>
+conda<span class="w"> </span>install<span class="w"> </span>-c<span class="w"> </span>conda-forge<span class="w"> </span>-y<span class="w"> </span>doxygen<span class="w"> </span>make
 </pre></div>
 </div>
-<p>Next create a file <code class="docutils literal notranslate"><span class="pre">.env.json</span></code> in the root of this repo with some keys/values referencing the local folders of the Docs and Tutorials repos:</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="p">{</span>
-<span class="w">  </span><span class="s">&quot;TUTORIALS_DIR&quot;</span><span class="o">:</span><span class="w"> </span><span class="s">&quot;../tutorials&quot;</span><span class="p">,</span>
-<span class="w">  </span><span class="s">&quot;DOCS_DIR&quot;</span><span class="o">:</span><span class="w"> </span><span class="s">&quot;../pytorch/docs/source&quot;</span>
-<span class="p">}</span>
+</section>
+<section id="build-the-documentation">
+<h3>Build the Documentation<a class="headerlink" href="#build-the-documentation" title="Permalink to this heading">¶</a></h3>
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># Generate the C++ documentation</span>
+make<span class="w"> </span>doxygen
+
+<span class="c1"># Generate the Python documentation and assemble together with the C++ documentation</span>
+make<span class="w"> </span>html
 </pre></div>
 </div>
-<p>You can then build the Docs or Tutorials by running</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span><span class="w"> </span><span class="o">--</span><span class="n">project</span><span class="o">=</span><span class="n">docs</span>
+<p>After the build completes, view the generated documentation:</p>
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>sphinx-serve<span class="w"> </span>-b<span class="w"> </span>build
 </pre></div>
 </div>
-<p>or</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">grunt</span><span class="w"> </span><span class="o">--</span><span class="n">project</span><span class="o">=</span><span class="n">tutorials</span>
+</section>
+<section id="deployment-preview">
+<h3>Deployment Preview<a class="headerlink" href="#deployment-preview" title="Permalink to this heading">¶</a></h3>
+<p>As a PyTorch project, a preview of the FBGEMM_GPU documentation will be
+automatically built and deployed by <a class="reference external" href="https://www.netlify.com/">Netlify</a>
+when pull requests are made.  When the build completes, the deployment preview
+can be found at:</p>
+<div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>https://deploy-preview-&lt;PR<span class="w"> </span>NUMBER&gt;&gt;--pytorch-fbgemm-docs.netlify.app/
 </pre></div>
 </div>
-<p>These will generate a live-reloaded local build for the respective projects available at <code class="docutils literal notranslate"><span class="pre">localhost:1919</span></code>.</p>
-<p>Note that while live reloading works these two projects are hefty and will take a few seconds to build and reload, especially the Docs.</p>
 </section>
 </section>
-<section id="built-in-stylesheets-and-fonts">
-<h3>Built-in Stylesheets and Fonts<a class="headerlink" href="#built-in-stylesheets-and-fonts" title="Permalink to this headline">¶</a></h3>
-<p>There are a couple of stylesheets and fonts inside the Docs and Tutorials repos themselves meant to override the existing theme. To ensure the most accurate styles we should comment out those files until the maintainers of those repos remove them:</p>
-<section id="id1">
-<h4>Docs<a class="headerlink" href="#id1" title="Permalink to this headline">¶</a></h4>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="cp"># ./docs/source/conf.py</span>
-
-<span class="n">html_context</span><span class="w"> </span><span class="o">=</span><span class="w"> </span><span class="p">{</span>
-<span class="w">    </span><span class="cp"># &#39;css_files&#39;: [</span>
-<span class="w">    </span><span class="cp">#     &#39;https:</span><span class="c1">//fonts.googleapis.com/css?family=Lato&#39;,</span>
-<span class="w">    </span><span class="cp">#     &#39;_static/css/pytorch_theme.css&#39;</span>
-<span class="w">    </span><span class="cp"># ],</span>
-<span class="p">}</span>
+<section id="general-documentation-guidelines">
+<h2>General Documentation Guidelines<a class="headerlink" href="#general-documentation-guidelines" title="Permalink to this heading">¶</a></h2>
+<p>When new public API methods are added, they should be accompanied by sufficient
+documentation.  Here are some guidelines for documenting FBGEMM_GPU code:</p>
+<ul class="simple">
+<li><p>Code by itself is not documentation! Put yourself in the shoes of new
+developers who has to understand what your code does, and make their lives
+easier.</p></li>
+<li><p>Documentation should be added for any and all public API methods.</p></li>
+<li><p>Don’t leave docstring-writing as a separate task.</p></li>
+<li><p>Write docstrings together with the code.</p></li>
+<li><p>At a very minimum, add:</p>
+<ul>
+<li><p>A description of the method.</p></li>
+<li><p>A description for each argument that can be passed into the method.</p></li>
+<li><p>A description of the method’s return value.</p></li>
+</ul>
+</li>
+<li><p>Add usage examples, links to other methods, and method invocation limitations.</p></li>
+</ul>
+</section>
+<section id="adding-documentation-to-python-code">
+<h2>Adding Documentation to Python Code<a class="headerlink" href="#adding-documentation-to-python-code" title="Permalink to this heading">¶</a></h2>
+<p>Documentation for Python is provided through docstrings and generated using
+<a class="reference external" href="https://www.sphinx-doc.org/en/master/">Sphinx</a>.  Please reference the
+<a class="reference external" href="https://www.sphinx-doc.org/en/master/usage/extensions/example_google.html">Google-style Python docstrings</a>
+guide for docstring formatting examples.</p>
+<p>Please add Python docstrings to the <code class="docutils literal notranslate"><span class="pre">.py</span></code> files under the name of the
+method:</p>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="k">def</span> <span class="nf">example_function</span><span class="p">():</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is an example of how you can write docstrings.</span>
+<span class="sd">    You can add multiple lines of those descriptions. Make sure to include</span>
+<span class="sd">    useful information about your method.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        arg1 (int): This is the first arg that you can pass with this function.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        This function returns X.</span>
+
+<span class="sd">    Raises:</span>
+<span class="sd">        AttributeError: This function raises an error.</span>
+
+<span class="sd">    Example:</span>
+<span class="sd">        This is how you can use this function</span>
+
+<span class="sd">        &gt;&gt;&gt; print(&quot;Code blocks are supported&quot;)</span>
+
+<span class="sd">    Note:</span>
+<span class="sd">       You can find more information</span>
+<span class="sd">    &quot;&quot;&quot;</span>
 </pre></div>
 </div>
+<p>Adding docstrings does not automatically publish them to the package
+documentation.  To publish new docstrings:</p>
+<ol class="arabic simple">
+<li><p>Add the module method to its corresponding <code class="docutils literal notranslate"><span class="pre">.rst</span></code> file.</p></li>
+<li><p>To preview locally, run <code class="docutils literal notranslate"><span class="pre">make</span> <span class="pre">html</span></code>.</p></li>
+<li><p>Verify the changes by building the docs locally or submitting a PR for a
+Netlify preview.</p></li>
+</ol>
 </section>
-<section id="id2">
-<h4>Tutorials<a class="headerlink" href="#id2" title="Permalink to this headline">¶</a></h4>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="cp"># ./conf.py</span>
-
-<span class="cp"># app.add_stylesheet(&#39;css/pytorch_theme.css&#39;)</span>
-<span class="cp"># app.add_stylesheet(&#39;https:</span><span class="c1">//fonts.googleapis.com/css?family=Lato&#39;)</span>
+<section id="adding-documentation-to-c-code">
+<h2>Adding Documentation to C++ Code<a class="headerlink" href="#adding-documentation-to-c-code" title="Permalink to this heading">¶</a></h2>
+<p>Documentation for C++ is provided through
+<a class="reference external" href="https://www.oracle.com/technical-resources/articles/java/javadoc-tool.html">Javadoc-style comments</a>
+and generated using Sphinx + <a class="reference external" href="https://www.doxygen.nl/">Doxygen</a> +
+<a class="reference external" href="https://www.breathe-doc.org/">Breathe</a>.</p>
+<p>Documentation is kept in header files with the <code class="docutils literal notranslate"><span class="pre">.h</span></code> extension as well as in
+<code class="docutils literal notranslate"><span class="pre">.cpp</span></code>, <code class="docutils literal notranslate"><span class="pre">cu</span></code>, and <code class="docutils literal notranslate"><span class="pre">cuh</span></code> files. In these files, everything between
+<code class="docutils literal notranslate"><span class="pre">#ifndef</span> <span class="pre">DOXYGEN_THIS_WILL_BE_SKIPPED</span></code> and <code class="docutils literal notranslate"><span class="pre">#endif</span></code> will be hidden from the
+HTML output. At the moment, undocumented functions are hidden in these tags.
+When you add descriptionss to a function, make sure that the <code class="docutils literal notranslate"><span class="pre">#ifndef</span></code> and
+<code class="docutils literal notranslate"><span class="pre">#endif</span></code> are configured correctly.</p>
+<p>All functions are grouped by a specific group for better organization.
+Make sure you add <code class="docutils literal notranslate"><span class="pre">&#64;defgroup</span></code> to the code comments.</p>
+<p>Follow these instructions to document, generate, and publish a new C++
+description:</p>
+<ol class="arabic">
+<li><p>Add a description to the source header file. At a very minimum, add a
+description verbatim, parameters by using the <code class="docutils literal notranslate"><span class="pre">&#64;param</span></code> tag, and
+return value by using the &#64;return tag. You can other tags as needed.
+Here is an example of how it can look:</p>
+<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="c1">/// @defgroup example-method-group Example Method Group</span>
+<span class="c1">/// This is a description of the example method group.</span>
+
+<span class="c1">/// @ingroup example-method-group</span>
+<span class="c1">/// Description of `example_method`</span>
+<span class="c1">///</span>
+<span class="c1">/// **Example:**</span>
+<span class="c1">/// ```python</span>
+<span class="c1">/// # Here is a Python code block</span>
+<span class="c1">/// def foo(lst: List[int]):</span>
+<span class="c1">///   return [ x ** 2 for x in lst ]</span>
+<span class="c1">/// ```</span>
+<span class="c1">///</span>
+<span class="c1">/// @param param1 Description of param #1</span>
+<span class="c1">/// @param param2 Description of param #2</span>
+<span class="c1">///</span>
+<span class="c1">/// @return Description of the method&#39;s return value.</span>
+<span class="c1">/// @throw fbgemm_gpu::my_error if an error occurs</span>
+<span class="c1">///</span>
+<span class="c1">/// @note This is an example note.</span>
+<span class="c1">/// @warning This is an example  warning.</span>
+<span class="c1">/// @see For more info, see &lt;a href=&quot;https://www.doxygen.nl/manual/commands.html#cmdlink&quot;&gt;here&lt;/a&gt;.</span>
+<span class="kt">int32_t</span><span class="w"> </span><span class="nf">example_method</span><span class="p">(</span><span class="kt">bool</span><span class="w"> </span><span class="n">foo</span><span class="p">,</span><span class="w"> </span><span class="kt">float</span><span class="w"> </span><span class="n">bar</span><span class="p">);</span>
 </pre></div>
 </div>
-</section>
-</section>
-<section id="top-mobile-navigation">
-<h3>Top/Mobile Navigation<a class="headerlink" href="#top-mobile-navigation" title="Permalink to this headline">¶</a></h3>
-<p>The top navigation and mobile menu expect an “active” state for one of the menu items. To ensure that either “Docs” or “Tutorials” is marked as active, set the following config value in the respective <code class="docutils literal notranslate"><span class="pre">conf.py</span></code>, where <code class="docutils literal notranslate"><span class="pre">{project}</span></code> is either <code class="docutils literal notranslate"><span class="pre">&quot;docs&quot;</span></code> or <code class="docutils literal notranslate"><span class="pre">&quot;tutorials&quot;</span></code>.</p>
-<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span>html_theme_options = {
-  ...
-  &#39;pytorch_project&#39;: {project}
-  ...
-}
+</li>
+<li><p>Add a <code class="docutils literal notranslate"><span class="pre">doxygengroup</span></code> directive to the corresponding <code class="docutils literal notranslate"><span class="pre">.rst</span></code> file.  If
+an <code class="docutils literal notranslate"><span class="pre">.rst</span></code> file for the corresponding header file does not exist, create a
+new one by the same name as the header file.  If an <code class="docutils literal notranslate"><span class="pre">.rst</span></code> file already
+exists, make sure the <code class="docutils literal notranslate"><span class="pre">doxygengroup</span></code> is defined in that file.
+Using the above example:</p>
+<div class="highlight-rst notranslate"><div class="highlight"><pre><span></span><span class="gh">Example Methods Group</span>
+<span class="gh">---------------------</span>
+
+<span class="p">..</span> <span class="ow">doxygengroup</span><span class="p">::</span> example-method-group
+  <span class="nc">:content-only:</span>
 </pre></div>
 </div>
-</section>
+<p>This example generates the following HTML output:</p>
+<img alt="../_images/ExampleDocsOutput.png" src="../_images/ExampleDocsOutput.png" />
+</li>
+<li><p>Make sure the <code class="docutils literal notranslate"><span class="pre">.rst</span></code> file is included in to the <code class="docutils literal notranslate"><span class="pre">toctree</span></code> in
+<code class="docutils literal notranslate"><span class="pre">index.rst</span></code> (<a class="reference internal" href="../index.html#fbgemm-gpu-docs-toc-cpp"><span class="std std-ref">FBGEMM_GPU C++ API</span></a>).</p></li>
+<li><p>The C++ source header file needs to be in one of the directories listed in
+the <code class="docutils literal notranslate"><span class="pre">INPUT</span></code> parameter in <code class="docutils literal notranslate"><span class="pre">Doxygen.ini</span></code>.  If it’s in a directory not
+listed, be sure to append the directory path to the parameter.</p></li>
+<li><p>Verify the changes by building the docs locally or submitting a PR for a
+Netlify preview.</p></li>
+</ol>
 </section>
 </section>
 
@@ -516,6 +563,15 @@ <h3>Top/Mobile Navigation<a class="headerlink" href="#top-mobile-navigation" tit
             </div>
             <footer>
   
+    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
+      
+        <a href="../python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
+      
+      
+        <a href="TestInstructions.html" class="btn btn-neutral" title="Testing FBGEMM_GPU" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+      
+    </div>
+  
 
   
 
@@ -544,23 +600,18 @@ <h3>Top/Mobile Navigation<a class="headerlink" href="#top-mobile-navigation" tit
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">PyTorch Sphinx Theme</a><ul>
-<li><a class="reference internal" href="#local-development">Local Development</a></li>
-<li><a class="reference internal" href="#testing-your-changes-and-submitting-a-pr">Testing your changes and submitting a PR</a></li>
-<li><a class="reference internal" href="#publishing-the-theme">Publishing the theme</a><ul>
-<li><a class="reference internal" href="#developing-locally-against-pytorch-docs-and-tutorials">Developing locally against PyTorch Docs and Tutorials</a><ul>
-<li><a class="reference internal" href="#docs">Docs</a></li>
-<li><a class="reference internal" href="#tutorials">Tutorials</a></li>
-</ul>
-</li>
-<li><a class="reference internal" href="#built-in-stylesheets-and-fonts">Built-in Stylesheets and Fonts</a><ul>
-<li><a class="reference internal" href="#id1">Docs</a></li>
-<li><a class="reference internal" href="#id2">Tutorials</a></li>
-</ul>
-</li>
-<li><a class="reference internal" href="#top-mobile-navigation">Top/Mobile Navigation</a></li>
+<li><a class="reference internal" href="#">Contributing Documentation</a><ul>
+<li><a class="reference internal" href="#building-the-api-documentation">Building the API Documentation</a><ul>
+<li><a class="reference internal" href="#set-up-build-environment">Set Up Build Environment</a></li>
+<li><a class="reference internal" href="#build-fbgemm-gpu">Build FBGEMM_GPU</a></li>
+<li><a class="reference internal" href="#set-up-documentation-toolchain">Set Up Documentation Toolchain</a></li>
+<li><a class="reference internal" href="#build-the-documentation">Build the Documentation</a></li>
+<li><a class="reference internal" href="#deployment-preview">Deployment Preview</a></li>
 </ul>
 </li>
+<li><a class="reference internal" href="#general-documentation-guidelines">General Documentation Guidelines</a></li>
+<li><a class="reference internal" href="#adding-documentation-to-python-code">Adding Documentation to Python Code</a></li>
+<li><a class="reference internal" href="#adding-documentation-to-c-code">Adding Documentation to C++ Code</a></li>
 </ul>
 </li>
 </ul>
@@ -578,11 +629,9 @@ <h3>Top/Mobile Navigation<a class="headerlink" href="#top-mobile-navigation" tit
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/general/InstallationInstructions.html b/general/InstallationInstructions.html
index 88c489783..014952b37 100644
--- a/general/InstallationInstructions.html
+++ b/general/InstallationInstructions.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Testing FBGEMM_GPU" href="TestInstructions.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,9 +354,9 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="installation-instructions">
-<h1>Installation Instructions<a class="headerlink" href="#installation-instructions" title="Permalink to this headline">¶</a></h1>
-<p><strong>Note:</strong> The most up-to-date instructions are embedded in a set of scripts
-bundled in the FBGEMM_GPU repo under
+<h1>Installation Instructions<a class="headerlink" href="#installation-instructions" title="Permalink to this heading">¶</a></h1>
+<p><strong>Note:</strong> The most up-to-date installation instructions are embedded in a set
+of scripts bundled in the FBGEMM_GPU repo under
 <a class="reference external" href="https://github.com/pytorch/FBGEMM/blob/main/.github/scripts/setup_env.bash">setup_env.bash</a>.</p>
 <p>The general steps for installing FBGEMM_GPU are as follows:</p>
 <ol class="arabic simple">
@@ -364,13 +367,13 @@ <h1>Installation Instructions<a class="headerlink" href="#installation-instructi
 <li><p>Run post-installation checks.</p></li>
 </ol>
 <section id="set-up-cpu-only-environment">
-<h2>Set Up CPU-Only Environment<a class="headerlink" href="#set-up-cpu-only-environment" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up CPU-Only Environment<a class="headerlink" href="#set-up-cpu-only-environment" title="Permalink to this heading">¶</a></h2>
 <p>Follow the instructions for setting up the Conda environment at
 <a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-setup-env"><span class="std std-ref">Set Up an Isolated Build Environment</span></a>, followed by
 <a class="reference internal" href="#fbgemm-gpu-docs-install-libraries"><span class="std std-ref">Install Python Libraries</span></a>.</p>
 </section>
 <section id="set-up-cuda-environment">
-<h2>Set Up CUDA Environment<a class="headerlink" href="#set-up-cuda-environment" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up CUDA Environment<a class="headerlink" href="#set-up-cuda-environment" title="Permalink to this heading">¶</a></h2>
 <p>The CUDA variant of FBGEMM_GPU requires an NVIDIA GPU installed to the machine,
 along with working NVIDIA drivers installed; otherwise or the library will fall
 back to running the CPU version of the operators.</p>
@@ -379,7 +382,7 @@ <h2>Set Up CUDA Environment<a class="headerlink" href="#set-up-cuda-environment"
 can be achieved by building the package from scratch, but is not guaranteed to
 work (especially for older architectures).</p>
 <section id="install-nvidia-drivers">
-<h3>Install NVIDIA Drivers<a class="headerlink" href="#install-nvidia-drivers" title="Permalink to this headline">¶</a></h3>
+<h3>Install NVIDIA Drivers<a class="headerlink" href="#install-nvidia-drivers" title="Permalink to this heading">¶</a></h3>
 <p>The NVIDIA display drivers must be installed on the system prior to all other
 environment setup. The steps provided by
 <a class="reference external" href="https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html">NVIDIA</a>
@@ -412,7 +415,7 @@ <h3>Install NVIDIA Drivers<a class="headerlink" href="#install-nvidia-drivers" t
 </div>
 </section>
 <section id="set-up-the-docker-container-and-conda-environment">
-<h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href="#set-up-the-docker-container-and-conda-environment" title="Permalink to this headline">¶</a></h3>
+<h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href="#set-up-the-docker-container-and-conda-environment" title="Permalink to this heading">¶</a></h3>
 <p>It is recommended, though not required, to install and run FBGEMM_GPU through a
 Docker setup for isolation and reproducibility of the CUDA environment.</p>
 <p>The NVIDIA-Docker runtime needs to be installed to expose the driver to the
@@ -428,19 +431,19 @@ <h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href=
 <a class="reference internal" href="#fbgemm-gpu-docs-install-libraries"><span class="std std-ref">Install Python Libraries</span></a>.</p>
 </section>
 <section id="install-the-cuda-runtime">
-<h3>Install the CUDA Runtime<a class="headerlink" href="#install-the-cuda-runtime" title="Permalink to this headline">¶</a></h3>
+<h3>Install the CUDA Runtime<a class="headerlink" href="#install-the-cuda-runtime" title="Permalink to this heading">¶</a></h3>
 <p>If the OS / Docker environment does not already contain the full CUDA runtime,
 follow the instructions in <a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-setup-cuda-install"><span class="std std-ref">Install CUDA</span></a> for
 installing the CUDA toolkit inside a Conda environment.</p>
 </section>
 </section>
 <section id="set-up-rocm-environment">
-<h2>Set Up ROCm Environment<a class="headerlink" href="#set-up-rocm-environment" title="Permalink to this headline">¶</a></h2>
+<h2>Set Up ROCm Environment<a class="headerlink" href="#set-up-rocm-environment" title="Permalink to this heading">¶</a></h2>
 <p>The ROCm variant of FBGEMM_GPU requires an AMD GPU installed to the machine,
 along with working AMDGPU drivers installed; otherwise or the library will fall
 back to running the CPU version of the operators.</p>
 <section id="install-amdgpu-drivers">
-<h3>Install AMDGPU Drivers<a class="headerlink" href="#install-amdgpu-drivers" title="Permalink to this headline">¶</a></h3>
+<h3>Install AMDGPU Drivers<a class="headerlink" href="#install-amdgpu-drivers" title="Permalink to this heading">¶</a></h3>
 <p>The AMDGPU display drivers must be installed on the system prior to all other
 environment setup. The steps provided by
 <a class="reference external" href="https://docs.amd.com/bundle/ROCm-Installation-Guide-v5.5/page/How_to_Install_ROCm.html">AMD</a>
@@ -460,7 +463,7 @@ <h3>Install AMDGPU Drivers<a class="headerlink" href="#install-amdgpu-drivers" t
 </div>
 </section>
 <section id="id1">
-<h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href="#id1" title="Permalink to this headline">¶</a></h3>
+<h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href="#id1" title="Permalink to this heading">¶</a></h3>
 <p>It is recommended, though not required, to install and run FBGEMM_GPU through a
 Docker setup for isolation and reproducibility of the ROCm environment, which
 can be difficult to set up.</p>
@@ -473,7 +476,7 @@ <h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href=
 </section>
 </section>
 <section id="install-python-libraries">
-<span id="fbgemm-gpu-docs-install-libraries"></span><h2>Install Python Libraries<a class="headerlink" href="#install-python-libraries" title="Permalink to this headline">¶</a></h2>
+<span id="fbgemm-gpu-docs-install-libraries"></span><h2>Install Python Libraries<a class="headerlink" href="#install-python-libraries" title="Permalink to this heading">¶</a></h2>
 <p>Install the relevant Python libraries for working with FBGEMM_GPU:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>conda<span class="w"> </span>install<span class="w"> </span>-n<span class="w"> </span><span class="s2">&quot;</span><span class="si">${</span><span class="nv">env_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="w"> </span>-y<span class="w"> </span><span class="se">\</span>
 <span class="w">    </span>hypothesis<span class="w"> </span><span class="se">\</span>
@@ -483,14 +486,14 @@ <h3>Set Up the Docker Container and Conda Environment<a class="headerlink" href=
 </div>
 </section>
 <section id="install-pytorch">
-<h2>Install PyTorch<a class="headerlink" href="#install-pytorch" title="Permalink to this headline">¶</a></h2>
+<h2>Install PyTorch<a class="headerlink" href="#install-pytorch" title="Permalink to this heading">¶</a></h2>
 <p>Follow the instructions in <a class="reference internal" href="BuildInstructions.html#fbgemm-gpu-docs-build-setup-pytorch-install"><span class="std std-ref">Install PyTorch</span></a>
 for installing PyTorch inside a Conda environment.</p>
 </section>
 <section id="install-the-fbgemm-gpu-package">
-<h2>Install the FBGEMM_GPU Package<a class="headerlink" href="#install-the-fbgemm-gpu-package" title="Permalink to this headline">¶</a></h2>
+<h2>Install the FBGEMM_GPU Package<a class="headerlink" href="#install-the-fbgemm-gpu-package" title="Permalink to this heading">¶</a></h2>
 <section id="install-through-pytorch-pip">
-<h3>Install through PyTorch PIP<a class="headerlink" href="#install-through-pytorch-pip" title="Permalink to this headline">¶</a></h3>
+<h3>Install through PyTorch PIP<a class="headerlink" href="#install-through-pytorch-pip" title="Permalink to this heading">¶</a></h3>
 <p>PyTorch PIP is the preferred channel for installing FBGEMM_GPU:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run inside the Conda environment !!</span>
 
@@ -520,7 +523,7 @@ <h3>Install through PyTorch PIP<a class="headerlink" href="#install-through-pyto
 </div>
 </section>
 <section id="install-through-public-pypi">
-<h3>Install through Public PyPI<a class="headerlink" href="#install-through-public-pypi" title="Permalink to this headline">¶</a></h3>
+<h3>Install through Public PyPI<a class="headerlink" href="#install-through-public-pypi" title="Permalink to this heading">¶</a></h3>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run inside the Conda environment !!</span>
 
 <span class="c1"># CPU-Only Nightly</span>
@@ -541,7 +544,7 @@ <h3>Install through Public PyPI<a class="headerlink" href="#install-through-publ
 </section>
 </section>
 <section id="post-installation-checks">
-<h2>Post-Installation Checks<a class="headerlink" href="#post-installation-checks" title="Permalink to this headline">¶</a></h2>
+<h2>Post-Installation Checks<a class="headerlink" href="#post-installation-checks" title="Permalink to this heading">¶</a></h2>
 <p>After installation, run an import test to ensure that the library is correctly
 linked and set up.</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># !! Run inside the Conda environment !!</span>
@@ -550,7 +553,7 @@ <h2>Post-Installation Checks<a class="headerlink" href="#post-installation-check
 </pre></div>
 </div>
 <section id="undefined-symbols">
-<h3>Undefined Symbols<a class="headerlink" href="#undefined-symbols" title="Permalink to this headline">¶</a></h3>
+<h3>Undefined Symbols<a class="headerlink" href="#undefined-symbols" title="Permalink to this heading">¶</a></h3>
 <p>A common error that is encountered is the failure to import FBGEMM_GPU in
 Python, which has the following error signature:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span>Traceback<span class="w"> </span><span class="o">(</span>most<span class="w"> </span>recent<span class="w"> </span>call<span class="w"> </span>last<span class="o">)</span>:
@@ -673,11 +676,9 @@ <h3>Undefined Symbols<a class="headerlink" href="#undefined-symbols" title="Perm
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/general/TestInstructions.html b/general/TestInstructions.html
index 5460c6ba9..50aa80ca2 100644
--- a/general/TestInstructions.html
+++ b/general/TestInstructions.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,9 +28,11 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="Table Batched Embedding (TBE) Operators" href="../python-api/table_batched_embedding_ops.html" />
+    <link rel="next" title="Contributing Documentation" href="DocsInstructions.html" />
     <link rel="prev" title="Installation Instructions" href="InstallationInstructions.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,11 +354,11 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="testing-fbgemm-gpu">
-<h1>Testing FBGEMM_GPU<a class="headerlink" href="#testing-fbgemm-gpu" title="Permalink to this headline">¶</a></h1>
+<h1>Testing FBGEMM_GPU<a class="headerlink" href="#testing-fbgemm-gpu" title="Permalink to this heading">¶</a></h1>
 <p>The tests (in the <code class="docutils literal notranslate"><span class="pre">test/</span></code> directoy) and benchmarks (in the <code class="docutils literal notranslate"><span class="pre">bench/</span></code>
 directory) provide good examples on how to use FBGEMM_GPU.</p>
 <section id="fbgemm-gpu-tests">
-<h2>FBGEMM_GPU Tests<a class="headerlink" href="#fbgemm-gpu-tests" title="Permalink to this headline">¶</a></h2>
+<h2>FBGEMM_GPU Tests<a class="headerlink" href="#fbgemm-gpu-tests" title="Permalink to this heading">¶</a></h2>
 <p>To run the tests after building / installing the FBGEMM_GPU package:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># From the /fbgemm_gpu/ directory</span>
 <span class="nb">cd</span><span class="w"> </span><span class="nb">test</span>
@@ -367,7 +370,7 @@ <h2>FBGEMM_GPU Tests<a class="headerlink" href="#fbgemm-gpu-tests" title="Permal
 </pre></div>
 </div>
 <section id="testing-with-the-cuda-variant">
-<h3>Testing with the CUDA Variant<a class="headerlink" href="#testing-with-the-cuda-variant" title="Permalink to this headline">¶</a></h3>
+<h3>Testing with the CUDA Variant<a class="headerlink" href="#testing-with-the-cuda-variant" title="Permalink to this heading">¶</a></h3>
 <p>For the FBGEMM_GPU CUDA package, GPUs will be automatically detected and
 used for testing. To run the tests and benchmarks on a GPU-capable
 device in CPU-only mode, <code class="docutils literal notranslate"><span class="pre">CUDA_VISIBLE_DEVICES=-1</span></code> must be set in the
@@ -381,7 +384,7 @@ <h3>Testing with the CUDA Variant<a class="headerlink" href="#testing-with-the-c
 </div>
 </section>
 <section id="testing-with-the-rocm-variant">
-<h3>Testing with the ROCm Variant<a class="headerlink" href="#testing-with-the-rocm-variant" title="Permalink to this headline">¶</a></h3>
+<h3>Testing with the ROCm Variant<a class="headerlink" href="#testing-with-the-rocm-variant" title="Permalink to this heading">¶</a></h3>
 <p>For ROCm machines, testing against a ROCm GPU needs to be enabled with
 <code class="docutils literal notranslate"><span class="pre">FBGEMM_TEST_WITH_ROCM=1</span></code> set in the environment:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># From the /fbgemm_gpu/ directory</span>
@@ -397,7 +400,7 @@ <h3>Testing with the ROCm Variant<a class="headerlink" href="#testing-with-the-r
 </section>
 </section>
 <section id="fbgemm-gpu-benchmarks">
-<h2>FBGEMM_GPU Benchmarks<a class="headerlink" href="#fbgemm-gpu-benchmarks" title="Permalink to this headline">¶</a></h2>
+<h2>FBGEMM_GPU Benchmarks<a class="headerlink" href="#fbgemm-gpu-benchmarks" title="Permalink to this heading">¶</a></h2>
 <p>To run the benchmarks:</p>
 <div class="highlight-sh notranslate"><div class="highlight"><pre><span></span><span class="c1"># From the /fbgemm_gpu/ directory</span>
 <span class="nb">cd</span><span class="w"> </span>bench
@@ -416,7 +419,7 @@ <h2>FBGEMM_GPU Benchmarks<a class="headerlink" href="#fbgemm-gpu-benchmarks" tit
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
-        <a href="../python-api/table_batched_embedding_ops.html" class="btn btn-neutral float-right" title="Table Batched Embedding (TBE) Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
+        <a href="DocsInstructions.html" class="btn btn-neutral float-right" title="Contributing Documentation" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
         <a href="InstallationInstructions.html" class="btn btn-neutral" title="Installation Instructions" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
@@ -475,11 +478,9 @@ <h2>FBGEMM_GPU Benchmarks<a class="headerlink" href="#fbgemm-gpu-benchmarks" tit
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/generate__vbe__metadata_8cu.html b/generate__vbe__metadata_8cu.html
new file mode 100644
index 000000000..66095e5b2
--- /dev/null
+++ b/generate__vbe__metadata_8cu.html
@@ -0,0 +1,187 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils/generate_vbe_metadata.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html">split_embeddings_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">generate_vbe_metadata.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a9c89bc26edc2d2f4014204d89bd846eb" id="r_a9c89bc26edc2d2f4014204d89bd846eb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a9c89bc26edc2d2f4014204d89bd846eb">generate_vbe_metadata</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">B_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">B_offsets_rank_per_feature</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_offsets_feature_rank</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">nobag</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_B_feature_rank</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> info_B_num_bits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_B</a>)</td></tr>
+<tr class="separator:a9c89bc26edc2d2f4014204d89bd846eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9c89bc26edc2d2f4014204d89bd846eb" name="a9c89bc26edc2d2f4014204d89bd846eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c89bc26edc2d2f4014204d89bd846eb">&#9670;&#160;</a></span>generate_vbe_metadata()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; generate_vbe_metadata </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets_rank_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets_feature_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>nobag</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_B</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Generate VBE metadata namely output_offsets and b_t_map</p>
+<p>row_output_offsets A 1D tensor that contains the output offset of each b (sample) and t (feature/table) pair. The output serializes O_r_t where O_r_t is the local output of rank r and feature/table t (t is the fastest moving index). b_t_map A 1D tensor that contains the b and t information of the linearized b and t (b is the fastest moving index).</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">B_offsets</td><td>Batch size offsets for all features. </td></tr>
+    <tr><td class="paramname">B_offsets_rank_per_feature</td><td>Batch size offsets for all ranks (GPUs) for each feature. </td></tr>
+    <tr><td class="paramname">output_offsets_feature_rank</td><td>Output offsets for all features and ranks and features. </td></tr>
+    <tr><td class="paramname">D_offsets</td><td>Embedding dimension offsets. Required if nobag is false. </td></tr>
+    <tr><td class="paramname">D</td><td>The embedding dimension. Required if nobag is true. </td></tr>
+    <tr><td class="paramname">nobag</td><td>A boolean to indicate if TBE is pooled (false) or sequence (true). </td></tr>
+    <tr><td class="paramname">max_B_feature_rank</td><td>Maximum number of batches for feature ranking </td></tr>
+    <tr><td class="paramname">info_B_num_bits</td><td>The number of bits used to encode a sample ID. (Used for populating b_t_map). </td></tr>
+    <tr><td class="paramname">total_B</td><td>The total number of samples (i.e., the total number of b and t pairs). </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/genindex.html b/genindex.html
index c4e6b903a..44a397f0d 100644
--- a/genindex.html
+++ b/genindex.html
@@ -27,6 +27,8 @@
 
   <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="#" />
     <link rel="search" title="Search" href="search.html" />
   <!-- Google Tag Manager -->
@@ -249,18 +251,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -361,10 +364,12 @@ <h1 id="index">Index</h1>
  | <a href="#J"><strong>J</strong></a>
  | <a href="#L"><strong>L</strong></a>
  | <a href="#M"><strong>M</strong></a>
+ | <a href="#N"><strong>N</strong></a>
  | <a href="#P"><strong>P</strong></a>
  | <a href="#R"><strong>R</strong></a>
  | <a href="#S"><strong>S</strong></a>
  | <a href="#T"><strong>T</strong></a>
+ | <a href="#U"><strong>U</strong></a>
  | <a href="#W"><strong>W</strong></a>
  
 </div>
@@ -509,6 +514,8 @@ <h2 id="I">I</h2>
       <li><a href="cpp-api/embedding_ops.html#_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">int_nbit_split_embedding_uvm_caching_codegen_lookup_function (C++ function)</a>
 </li>
       <li><a href="cpp-api/embedding_ops.html#_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE">int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv413is_uvm_tensorRK6Tensor">is_uvm_tensor (C++ function)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -594,6 +601,24 @@ <h2 id="M">M</h2>
   </ul></td>
 </tr></table>
 
+<h2 id="N">N</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="cpp-api/memory_utils.html#_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">new_host_mapped_tensor (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">new_managed_tensor (C++ function)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="cpp-api/memory_utils.html#_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE">new_managed_tensor_meta (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb">new_unified_tensor (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE">new_vanilla_managed_tensor (C++ function)</a>
+</li>
+  </ul></td>
+</tr></table>
+
 <h2 id="P">P</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
@@ -609,7 +634,7 @@ <h2 id="P">P</h2>
 </li>
       <li><a href="cpp-api/merge_pooled_embeddings.html#_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_auto_grad_split_gpu (C++ function)</a>
 </li>
-      <li><a href="cpp-api/merge_pooled_embeddings.html#_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_cpu (C++ function)</a>
+      <li><a href="cpp-api/merge_pooled_embeddings.html#_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb">permute_pooled_embs_cpu_impl (C++ function)</a>
 </li>
       <li><a href="cpp-api/merge_pooled_embeddings.html#_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE">permute_pooled_embs_split_cpu (C++ function)</a>
 </li>
@@ -667,10 +692,42 @@ <h2 id="R">R</h2>
 <h2 id="S">S</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen">SplitTableBatchedEmbeddingBagsCodegen() (in module fbgemm_gpu.split_table_batched_embeddings_ops)</a>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_adagrad_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_adam_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_approx_rowwise_adagrad_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_approx_sgd_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_lamb_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_lars_sgd_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_none_function (C++ function)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_partial_rowwise_adam_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_partial_rowwise_lamb_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_rowwise_adagrad_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_rowwise_weighted_adagrad_function (C++ function)</a>
+</li>
+      <li><a href="cpp-api/embedding_ops.html#_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb">split_embedding_codegen_lookup_sgd_function (C++ function)</a>
+</li>
+      <li><a href="python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen">SplitTableBatchedEmbeddingBagsCodegen() (in module fbgemm_gpu.split_table_batched_embeddings_ops)</a>
+</li>
       <li><a href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_1d_to_dense">stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)</a>
 </li>
       <li><a href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_2d_to_dense">stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)</a>
@@ -686,6 +743,28 @@ <h2 id="T">T</h2>
   </ul></td>
 </tr></table>
 
+<h2 id="U">U</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="cpp-api/memory_utils.html#_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t">uvm_cuda_mem_advise (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE">uvm_cuda_mem_prefetch_async (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv424uvm_mem_advice_dont_forkRK6Tensor">uvm_mem_advice_dont_fork (C++ function)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="cpp-api/memory_utils.html#_CPPv411uvm_storageRK6Tensor">uvm_storage (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv410uvm_to_cpuRK6Tensor">uvm_to_cpu (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv416uvm_to_cpu_cloneRK6Tensor">uvm_to_cpu_clone (C++ function)</a>
+</li>
+      <li><a href="cpp-api/memory_utils.html#_CPPv413uvm_to_deviceRK6TensorRK6Tensor">uvm_to_device (C++ function)</a>
+</li>
+  </ul></td>
+</tr></table>
+
 <h2 id="W">W</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
@@ -742,11 +821,9 @@ <h2 id="W">W</h2>
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>
-         <script src="_static/jquery.js"></script>
-         <script src="_static/underscore.js"></script>
+         <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js"></script>
          <script src="_static/doctools.js"></script>
-         <script src="_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/get__infos__metadata_8cu.html b/get__infos__metadata_8cu.html
new file mode 100644
index 000000000..8ca243ea7
--- /dev/null
+++ b/get__infos__metadata_8cu.html
@@ -0,0 +1,153 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils/get_infos_metadata.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html">split_embeddings_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">get_infos_metadata.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a315ee6fa620a68c902298d741ac8989d" name="a315ee6fa620a68c902298d741ac8989d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a315ee6fa620a68c902298d741ac8989d">&#9670;&#160;</a></span>adjust_info_B_num_bits()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; int32_t, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> &gt; adjust_info_B_num_bits </td>
+          <td>(</td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>T</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a487bdb340f5c93165158a37aaf156fe9" name="a487bdb340f5c93165158a37aaf156fe9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a487bdb340f5c93165158a37aaf156fe9">&#9670;&#160;</a></span>get_infos_metadata()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; get_infos_metadata </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unused</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals.html b/globals.html
new file mode 100644
index 000000000..abd6484f5
--- /dev/null
+++ b/globals.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index__5F" name="index__5F"></a>- _ -</h3><ul>
+<li>__HALF2_TO_UI&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#ab78d230e0bbda883a8f34ca1e31d0929">fbgemm_cuda_utils.cuh</a></li>
+<li>__has_include&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#ae5510d82e4946f1656f4969911c54736">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#ae5510d82e4946f1656f4969911c54736">CMakeCXXCompilerId.cpp</a></li>
+<li>__launch_bounds__()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a99c23e8020a9ae93a0d0d429c6940707">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abf79428f3dcf0b60bcff9074d587aeaf">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a920aba769ec4eba77d74c4cce2f0aa5a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aacedf2a727684a316ae18abf5670f8e8">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a158fb407fba50cda959d3a60cbc01d91">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ade29dc18e73de993e107177d9568fbdf">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a79b96d6a0be54ea86ebd1cadeedd2068">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#ad4cbc31bac8a8d965f3549045cd85999">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4987b540b661f1caa132231f415c45a9">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a08d8db556761e8e68193b2cc8a32a1cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae73620aca9ffc6e0cfd3b9cb594bdaf0">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2af51d716ed8d2b1a926e0f237b76f71">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#afd015e1d0e79f14de8ed5bdf578c81df">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a63e7a313c891f643c307bd05041a5b54">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a320b7cb4717a06125d1e05149e7414a9">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aec3f0f560b496881e95413f483dc0c32">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#aaa0317297f080a5b537f22049d8ecbbe">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a18e29f7653534f3a75e41cf3056d2634">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aaba75f921548599cff242a4033a381c9">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad0d4a168e8e591add8c872d4c2fff64a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a634a690ed27c50d8308bcc0a9bf85acc">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ac9d49c8094b87daf6025d9195437119e">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ad7474c2dcf75a987f9526e730542ae16">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a73ddb7ffe3131b43c027bed87a21da0c">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a557205856561135a510a45e915bc0714">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a15977bf39e5dbde54bc2d1176a9272b9">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a9c866240eb5eb8df0da4e1ee803e04cf">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#ad0f3c1412b7b4ddb2f3c5262b27f5b46">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a56d820ab8e2e5c1e815ecbe5e906075e">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a254195fbabfff3c3ad9ba04db100afae">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a28a51c35ffb6aac4d6b35c9b87960129">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abacbb190c3b418788aa37c065b93e703">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ae73b050da138bd46bcb186f630a45f1e">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a1296e33305fd2cde7e9e34e18e7e7905">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a709a4f70083ce173ce40562aa52ad3c8">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed">embedding_backward_split_grad_template.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a640269bb96d2014f8c117163f09d8228">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a718566769c1ceda303b72d8876532ea6">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a02d4931cef892bdaf44d3ab510f0d655">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a0f7cdacc2963885ca7eddcf74c44c1e7">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a2b31286ebfaa57f2a8e43418dc0cc2bc">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#ab54a42bb86f9a913d382b4938e3b023f">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a98033ae44aee4b9db7201fdad50c28db">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#aea453d06a5b06a7263bbb3c3c598b805">embedding_backward_split_grad_template.cu</a>, <a class="el" href="embedding__backward__split__kernel__cta__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd">embedding_backward_split_kernel_cta_template.cu</a>, <a class="el" href="embedding__backward__split__kernel__warp__template_8cu.html#aa63bd2cb4cfc6b18191236e0a85bdd26">embedding_backward_split_kernel_warp_template.cu</a>, <a class="el" href="embedding__backward__split__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd">embedding_backward_split_template.cu</a>, <a class="el" href="embedding__bounds__check_8cu.html#a9fcdcf37685cd2ec9b88dfac7e77aaaa">embedding_bounds_check.cu</a>, <a class="el" href="embedding__forward__split__kernel__nobag__small__template_8cu.html#a5c289e92014011ec16430dabf2272ae8">embedding_forward_split_kernel_nobag_small_template.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a9bbd05d6885ea75e7564678a52104538">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="embedding__optimizer__split__kernel__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900">embedding_optimizer_split_kernel_template.cu</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900">embedding_optimizer_split_template.cu</a>, <a class="el" href="bench__utils_8cuh.html#a59e0073dcf6e90b2d7a7b38f6210cb50">bench_utils.cuh</a>, <a class="el" href="transpose__embedding__input_8cu.html#a91943a24b789081d81916b94ee7789ad">transpose_embedding_input.cu</a>, <a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a7d15f4b6131224480844be177fe6b28d">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ab27358be96fd39a3d879e0e3f942c616">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#aa77ffcc8cedf9fe2668e96e9305bdccb">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a02bd16452698dd0ae512e183e1ed25bb">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ab2b8f92ece6c5a09d11a65969626378d">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ca2ae3bf6df90dd1f3a4bf8b534231e">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a412bd503e722e4451e55ef89a4bb3649">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a422182213e14442c911aa3ba3ed18a58">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a040a74b95b542902bfb38bacd03202eb">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#a830a55ef37b6607a42e4b4cbb6889aa5">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a0178272d43da8f09567a976c98e4617c">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aa128173842fe96c64a581b2efdd5fe7e">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a40c420d5aadf8202b8a9de25931c44ff">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ab08dd38a042ee1b012a6db152e28df6d">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a41deb3b48278a02504f49a2a3dc15cd8">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9b1f7936d16c021a06b52e10047d17c9">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#af345685cdddd68d8304b0804863bc611">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a71d10fab767a3f6a4c9845432b7c673b">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a141a421e122929281f3a968d7181075d">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#aef74039cc67d8a29f2964dd2ead5c884">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#af4e9ad9da78c796024828e400596398e">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a727c25d68451d781ee3328a76b544770">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a02950b6e35152a847c545ef90af6c315">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#adf6d412fe63bcfdcd84fc4e45f616217">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a60ab111bc496bd3b843b3d73350f6695">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#ad49c5c5e6c69ba836c2c3728d383cd5c">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aaa0f0d28eaca058bde829af48b4a9b93">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a134107427281e66b9bdc1f05e0ed2006">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a321e6c7a5bc2c920f083dadb4d023bae">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a8f6c6ea91c21be19960e453b8f83698b">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4d92990636a3fcdbe762a413cc96c642">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a044189dd94a5b69db982c5e78a8258f4">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#aec8fd1dccb91dec69eee635d8cc8cae3">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa9d0b42dc9a6b6c25005e5adc6a412e3">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a502bf7dfa5a02ec71b77763a65ec91c5">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2ca5c0c3b7f03146b0739206987a8efb">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#af1eb0a147a3656c72bff10b68454c23b">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#afe75d514238f01862b4416d072a457ab">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aab67c7ff63262ed7ee2955ab54fd6cdb">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#aec97e553558684266790dc906158a105">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a50cb7dfbe0185fcbd26cfd0156710acc">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a7f198a235aa56925b36d48d029f9a26a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae7b604d06f2afe4b8d99b94b6a7ca46f">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad265ff9fd07f592055eb413d73ff59a3">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a479b62e3a680d0eb604b0d99c497dc44">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a665c5d75524a34cec6f5b5258b182d7a">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aeb6425d7cade524ae83445d8ffcad95a">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a8a0814be275ca40dd482231bf8be61ef">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a30fd75bf7de9f2dd4c1af90a76cc4cab">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a1e6a8699bf2c46477da50582e38ee237">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aa7724fd36f338edda8cec8fbce0dcc3f">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa9475900cea03cb0a61e0e16932e01a4">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#acd2e3179752c56bfdde47a8ad7a00220">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a440dc2054a1346ad291f617540be2e25">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#ab435787b7738dff4daa1eca5ed8725dd">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a250b8485cb708a3fe1d789613014b238">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae96e8ad601ac1adb859d3aec074bb439">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a59f00431d3950b72f6e7d89baf3fde0b">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a965b9c456ca6a6dffb664f585401250d">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ad23ff52f91efba0cbff48134c3a42bc4">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aac66a737c59bab7e9f767b1e38d5f1d3">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aeea6e4ebbd44a284f8e1078cf3efdaad">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a41774547fd61442443c1967f1a8e8b13">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a84d2573599cb14db8200acded518dd53">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#aee08a6146cbf90f361a828e6d2ff4ede">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae203f025f99b18448dfd355a519c4121">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a84dcaeb939254f551d6c356d1eca8747">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae9187ee78b193e34f92875da955dc6de">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a65ebc941a004af813be547c2114c6eca">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a49683c14f18b75fafd2a5ce3f90c7d61">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a8026675b09ae447bd48ab0a854ea28bf">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#afd63238f6b7c4a1e468568bda42bb3e0">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a4e2287d8d0e80b53a592337a64570d66">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#afa2ba02eba70da5c0a8fdcd8509e7e77">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afcf8fbf4f5013c1082ce86fa5c3a5fd4">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a8ea3bce56ea941e3716f81220ab88fe5">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a0c5ac630cac3e582871b2521984d3691">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a1be3f22e4eb6db21e09d922580c54faf">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a584ad4898a3e03f279eb3a39c419735e">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a78a9d364ed7043a1412228b17a0406a1">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6c8f5295879f30dac04285180744b05b">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a55340037f2150aa438d4cb6675412e7e">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#adda6d498fce399be1bb4ff6c884cd325">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab6d47d46fccfb5d973f8ff2a44bff7a">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a60776cad67cb695e9768c1ce170aed12">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#ae41fadf6abfe1e00dccedd18b90dab32">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a89a6fc31913b2347216065f4655b82ff">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></li>
+<li>_DISPATCH_EMB_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a8a3aad8de22734b1397d813a855528e1">dispatch_macros.h</a></li>
+<li>_update_kernel()&#160;:&#160;<a class="el" href="embedding__optimizer__split__kernel__template_8cu.html#afab484072b9b8381500b14e31ba49364">embedding_optimizer_split_kernel_template.cu</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#afab484072b9b8381500b14e31ba49364">embedding_optimizer_split_template.cu</a></li>
+<li>_v2_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a20b736346ad19821ed9748c4dde5b058">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_a.html b/globals_a.html
new file mode 100644
index 000000000..5ef24d6e8
--- /dev/null
+++ b/globals_a.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>ACC_ADD_OR_FMA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ada15471a8b1da6a3a43b940916fea71e">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>AdjacencyMatrix&#160;:&#160;<a class="el" href="topology__utils_8h.html#ada7183ec06808ddb73d8f1a65cd8f7ae">topology_utils.h</a></li>
+<li>adjust_info_B_num_bits()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#aaaa05e63829893f17b951de7dc993747">split_embeddings_utils.cuh</a>, <a class="el" href="get__infos__metadata_8cu.html#a315ee6fa620a68c902298d741ac8989d">get_infos_metadata.cu</a></li>
+<li>adjust_offset_kernel()&#160;:&#160;<a class="el" href="embedding__bounds__check_8cu.html#af9e26c2f2d6dfef45e1a12507d8c2b72">embedding_bounds_check.cu</a></li>
+<li>ARCHITECTURE_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#aba35d0d200deaeb06aee95ca297acb28">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#aba35d0d200deaeb06aee95ca297acb28">CMakeCXXCompilerId.cpp</a></li>
+<li>asynchronous_complete_cumsum()&#160;:&#160;<a class="el" href="transpose__embedding__input_8cu.html#ae27e2b1fda2a338ce8f7f2207b580e7f">transpose_embedding_input.cu</a></li>
+<li>AT_X&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ac7d28de6473a715c6228c08b391476bb">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_b.html b/globals_b.html
new file mode 100644
index 000000000..b9ac3c6bc
--- /dev/null
+++ b/globals_b.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>B&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>b&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>B&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></li>
+<li>batch_index_select_dim0_codegen_backward_cuda()&#160;:&#160;<a class="el" href="batch__index__select__dim0__host_8cpp.html#a5709eebbefa399282269508003e47e25">batch_index_select_dim0_host.cpp</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#a5709eebbefa399282269508003e47e25">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a></li>
+<li>batch_index_select_dim0_codegen_forward_cuda()&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a5951ed801e11a01c29c7bbfb648ee230">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#a5951ed801e11a01c29c7bbfb648ee230">batch_index_select_dim0_host.cpp</a></li>
+<li>batch_index_select_dim0_cpu()&#160;:&#160;<a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#aa719f2231fb791074324f6bbeace9d0c">batch_index_select_dim0_cpu_host.cpp</a></li>
+<li>batch_index_select_dim0_gpu()&#160;:&#160;<a class="el" href="batch__index__select__dim0__host_8cpp.html#a5bad7a4ddb5cf6144ad19b6296ef585c">batch_index_select_dim0_host.cpp</a></li>
+<li>benchmark_function()&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a8b8729bf92a232e1ff3403ebe7089fdd">bench_utils.cuh</a></li>
+<li>binary_search_range_cpu()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a519154f3b89148b1b70e45d8c340ff81">sparse_ops_utils.h</a></li>
+<li>bounds_check_indices_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e">embedding_bounds_check.cu</a>, <a class="el" href="group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e">embedding_bounds_check_host.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_c.html b/globals_c.html
new file mode 100644
index 000000000..a2e9970f7
--- /dev/null
+++ b/globals_c.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>C_VERSION&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#adaee3ee7c5a7a22451ea25e762e1d7d5">CMakeCCompilerId.c</a></li>
+<li>cache_vec_t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>COMPILER_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a81dee0709ded976b2e0319239f72d174">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a81dee0709ded976b2e0319239f72d174">CMakeCXXCompilerId.cpp</a></li>
+<li>convert_float_to_half_assemblefloat()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#abbb1b78a4249b42b116429258ac56174">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_bitcarry()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a46898a808f7408d99e7ad4c7fc0fea2a">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_direct()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a169a7087c41e8efae2d09cfc78fa802e">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_shortrand()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab109332ca0fae3f39a7d000348a1401c">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>cuda_calc_block_count()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ab702f2479ba0bedf91c18e0b644b210a">sparse_ops_utils.h</a></li>
+<li>cuda_calc_xblock_count()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369">sparse_ops_utils.h</a></li>
+<li>cuda_calc_xblock_count_base()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a885f787cafec301665604303ae43a2e3">sparse_ops_utils.h</a></li>
+<li>CUDA_CHECK&#160;:&#160;<a class="el" href="cuda__utils_8cuh.html#ad64d49299c3d240ae540a693ae38ca38">cuda_utils.cuh</a></li>
+<li>cuda_device_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#a96208d96b413317e110ff94d64c71ef4">memory_utils.cu</a></li>
+<li>CXX_STD&#160;:&#160;<a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a34cc889e576a1ae6c84ae9e0a851ba21">CMakeCXXCompilerId.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_d.html b/globals_d.html
new file mode 100644
index 000000000..b0754df3b
--- /dev/null
+++ b/globals_d.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a952bac18af6443873547ada58c1e9f82">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>d_flush2&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a33347a1447f1a3618e698f9d5914c253">bench_utils.cuh</a></li>
+<li>D_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e9016830b84a13779c14bb73acce5b1">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>D_start&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>data&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">common.cuh</a></li>
+<li>DEC&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#ad1280362da42492bbc11aa78cbf776ad">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#ad1280362da42492bbc11aa78cbf776ad">CMakeCXXCompilerId.cpp</a></li>
+<li>DECL_RADIX_SORT_PAIRS_FN&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a91fe9e10ff5c98fe4952c9c0986476b4">split_embeddings_utils.cuh</a></li>
+<li>DEF_RADIX_SORT_PAIRS_FN()&#160;:&#160;<a class="el" href="radix__sort__pairs_8cu.html#ac3e8e7f0d44c6e7d4a5aea790dca2526">radix_sort_pairs.cu</a></li>
+<li>DEFAULT_INFO_B_MASK&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a312a32dcc1f3a4980ed4c458b8bab67f">split_embeddings_utils.cuh</a></li>
+<li>DEFAULT_INFO_B_NUM_BITS&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#ac9d136da765bb4871acd477da0f2c254">split_embeddings_utils.cuh</a></li>
+<li>DEFAULT_INFO_NUM_BITS&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd">split_embeddings_utils.cuh</a></li>
+<li>dense_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a840483d38dd0ee3fe4b398ebee5bf3d7">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a840483d38dd0ee3fe4b398ebee5bf3d7">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9e6ce9ed24a999160137cd295420a9f">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></li>
+<li>dense_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a4e4e521f171d17c5d78bee2b3c9b21db">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a4e4e521f171d17c5d78bee2b3c9b21db">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_codegen_forward_weighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#ac89d0c2dc36fc6053f0425a919711b3a">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a></li>
+<li>dense_embedding_codegen_grad_indice_weights_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#aa413d80f0ebbadd4375b29cfb27654b3">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aa413d80f0ebbadd4375b29cfb27654b3">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#aadd3974603c08fba6a7c21638a57e7f4">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aadd3974603c08fba6a7c21638a57e7f4">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_nobag_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9b06d5bef944e3f22c1b7d5faf0cc73">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></li>
+<li>dev_weights&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a7ac7f1200f9cc67310a434e6da2bc8ae">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>DEVICE_INLINE&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">fbgemm_cuda_utils.cuh</a></li>
+<li>direct_mapped_lru_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__populate__byte_8cu.html#ab944b6f7e1df36b8ef0c4a911c1b0afb">lru_cache_populate_byte.cu</a></li>
+<li>direct_mapped_lxu_cache_lookup_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lxu__cache_8cu.html#a9a01f6df03e867e1871df306a6289e06">lxu_cache.cu</a></li>
+<li>DISPATCH_DENSE_TO_JAGGED_CASE&#160;:&#160;<a class="el" href="dense__to__jagged__forward_8cu.html#ab94a3e4679ece26e229ec76dc9733ca2">dense_to_jagged_forward.cu</a></li>
+<li>DISPATCH_EMB_CACHE_OUTPUT_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a8f06a63f75524d1985d76648b0fcf990">dispatch_macros.h</a></li>
+<li>DISPATCH_EMB_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ac4599e1c46b6eb357145dd791c6ae5c9">dispatch_macros.h</a></li>
+<li>DISPATCH_EMB_GRAD_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a10b99a9b7edecc89f4558ba0cf37c0ee">dispatch_macros.h</a></li>
+<li>DISPATCH_KERNEL_FOR_CACHE_CASE&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#a285553bb10df1164c041a1cb931b44a8">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_FORWARD_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321">embedding_backward_split_template.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_weighted_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></li>
+<li>DISPATCH_OUTPUT_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a91c270ea1cbf887747abbaf8883b7175">dispatch_macros.h</a></li>
+<li>DISPATCH_TO_ALL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ae80e8b33bdef7d2849eb3d516ff67d1b">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aab6390a9590ead03a896aae2b93a96ed">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD_CUDA&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#adb242971e11b66b1f8f58c361e44b8e7">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD_META&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a8ed65710de63bd56275d2ceded5d59b4">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#af5cf39897136f04c6f2ac5f3544c49c3">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_CUDA&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a06de50f3ede518ff59612c9ada5a85c8">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_META&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aa751218a0e9119ad6fa4d6d4df63fda5">sparse_ops_utils.h</a></li>
+<li>DIV_ROUND_UP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>DLL_PUBLIC&#160;:&#160;<a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">ops_utils.h</a></li>
+<li>do_write&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#af01122d304bbe0308fe6c59bebe33730">bench_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs.html b/globals_defs.html
new file mode 100644
index 000000000..9311c640f
--- /dev/null
+++ b/globals_defs.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index__5F" name="index__5F"></a>- _ -</h3><ul>
+<li>__HALF2_TO_UI&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#ab78d230e0bbda883a8f34ca1e31d0929">fbgemm_cuda_utils.cuh</a></li>
+<li>__has_include&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#ae5510d82e4946f1656f4969911c54736">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#ae5510d82e4946f1656f4969911c54736">CMakeCXXCompilerId.cpp</a></li>
+<li>_DISPATCH_EMB_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a8a3aad8de22734b1397d813a855528e1">dispatch_macros.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_a.html b/globals_defs_a.html
new file mode 100644
index 000000000..232805b06
--- /dev/null
+++ b/globals_defs_a.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>ACC_ADD_OR_FMA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ada15471a8b1da6a3a43b940916fea71e">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>ARCHITECTURE_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#aba35d0d200deaeb06aee95ca297acb28">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#aba35d0d200deaeb06aee95ca297acb28">CMakeCXXCompilerId.cpp</a></li>
+<li>AT_X&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ac7d28de6473a715c6228c08b391476bb">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_c.html b/globals_defs_c.html
new file mode 100644
index 000000000..06f194fb7
--- /dev/null
+++ b/globals_defs_c.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>C_VERSION&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#adaee3ee7c5a7a22451ea25e762e1d7d5">CMakeCCompilerId.c</a></li>
+<li>COMPILER_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a81dee0709ded976b2e0319239f72d174">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a81dee0709ded976b2e0319239f72d174">CMakeCXXCompilerId.cpp</a></li>
+<li>CUDA_CHECK&#160;:&#160;<a class="el" href="cuda__utils_8cuh.html#ad64d49299c3d240ae540a693ae38ca38">cuda_utils.cuh</a></li>
+<li>CXX_STD&#160;:&#160;<a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a34cc889e576a1ae6c84ae9e0a851ba21">CMakeCXXCompilerId.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_d.html b/globals_defs_d.html
new file mode 100644
index 000000000..6b0c819d8
--- /dev/null
+++ b/globals_defs_d.html
@@ -0,0 +1,106 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>DEC&#160;:&#160;<a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#ad1280362da42492bbc11aa78cbf776ad">CMakeCXXCompilerId.cpp</a>, <a class="el" href="_c_make_c_compiler_id_8c.html#ad1280362da42492bbc11aa78cbf776ad">CMakeCCompilerId.c</a></li>
+<li>DECL_RADIX_SORT_PAIRS_FN&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a91fe9e10ff5c98fe4952c9c0986476b4">split_embeddings_utils.cuh</a></li>
+<li>DEF_RADIX_SORT_PAIRS_FN&#160;:&#160;<a class="el" href="radix__sort__pairs_8cu.html#a4cf2c787c9111fdc77b98fcc9e690344">radix_sort_pairs.cu</a></li>
+<li>DEVICE_INLINE&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">fbgemm_cuda_utils.cuh</a></li>
+<li>DISPATCH_DENSE_TO_JAGGED_CASE&#160;:&#160;<a class="el" href="dense__to__jagged__forward_8cu.html#ab94a3e4679ece26e229ec76dc9733ca2">dense_to_jagged_forward.cu</a></li>
+<li>DISPATCH_EMB_CACHE_OUTPUT_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a8f06a63f75524d1985d76648b0fcf990">dispatch_macros.h</a></li>
+<li>DISPATCH_EMB_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ac4599e1c46b6eb357145dd791c6ae5c9">dispatch_macros.h</a></li>
+<li>DISPATCH_EMB_GRAD_CACHE_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a10b99a9b7edecc89f4558ba0cf37c0ee">dispatch_macros.h</a></li>
+<li>DISPATCH_KERNEL_FOR_CACHE_CASE&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#a285553bb10df1164c041a1cb931b44a8">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_FORWARD_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321">embedding_backward_split_template.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a></li>
+<li>DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__split__template_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">embedding_forward_split_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a></li>
+<li>DISPATCH_OUTPUT_TYPES&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a91c270ea1cbf887747abbaf8883b7175">dispatch_macros.h</a></li>
+<li>DISPATCH_TO_ALL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ae80e8b33bdef7d2849eb3d516ff67d1b">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aab6390a9590ead03a896aae2b93a96ed">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD_CUDA&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#adb242971e11b66b1f8f58c361e44b8e7">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_AUTOGRAD_META&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a8ed65710de63bd56275d2ceded5d59b4">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#af5cf39897136f04c6f2ac5f3544c49c3">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_CUDA&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a06de50f3ede518ff59612c9ada5a85c8">sparse_ops_utils.h</a></li>
+<li>DISPATCH_TO_META&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aa751218a0e9119ad6fa4d6d4df63fda5">sparse_ops_utils.h</a></li>
+<li>DIV_ROUND_UP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a0f2b77785cbc55639ba4e4874a65426c">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>DLL_PUBLIC&#160;:&#160;<a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_f.html b/globals_defs_f.html
new file mode 100644
index 000000000..d37b943e8
--- /dev/null
+++ b/globals_defs_f.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>FBGEMM_DISPATCH_FLOAT_AND_HALF&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a6db9b7506116844ae45993577c3b9ac4">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a60faa23c8d1bf9d75a2e598a5654ecff">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ab9329efe2d7882cbc2bd358b6672c292">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a7c7e35b09a14b3d5b76339803712ce7e">dispatch_macros.h</a></li>
+<li>FBGEMM_GPU_CUB_NS_PREFIX&#160;:&#160;<a class="el" href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">cub_namespace_postfix.cuh</a></li>
+<li>FBGEMM_GPU_ENUM_CREATE_TAG&#160;:&#160;<a class="el" href="enum__utils_8h.html#a769a65d91133d4f233bcf10280ff7a3c">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_GLOGAL&#160;:&#160;<a class="el" href="enum__utils_8h.html#adc8e24189b6f5a58092ade0b27e197b1">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_ITEM&#160;:&#160;<a class="el" href="enum__utils_8h.html#aef8d28be61e5e22bac45bf59c53dabbd">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_OP&#160;:&#160;<a class="el" href="enum__utils_8h.html#abcc6d46ce5e5452b5b49f96ae0aa67f3">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_END&#160;:&#160;<a class="el" href="enum__utils_8h.html#a1fc46fffc78f3820ce4668b6b2a92b55">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_START&#160;:&#160;<a class="el" href="enum__utils_8h.html#a3c1089cc9b549d33d50c20c14b348950">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_TAG&#160;:&#160;<a class="el" href="enum__utils_8h.html#aae161db28429e0e2aa9001448f52e2f4">enum_utils.h</a></li>
+<li>FBGEMM_OP_DISPATCH&#160;:&#160;<a class="el" href="ops__utils_8h.html#aed63a3f5bb9ae1c01f230bee2d95ea05">ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_h.html b/globals_defs_h.html
new file mode 100644
index 000000000..0d6d6a26a
--- /dev/null
+++ b/globals_defs_h.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>HEX&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a46d5d95daa1bef867bd0179594310ed5">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a46d5d95daa1bef867bd0179594310ed5">CMakeCXXCompilerId.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_i.html b/globals_defs_i.html
new file mode 100644
index 000000000..83490c5ac
--- /dev/null
+++ b/globals_defs_i.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>INSTANTIATE_BATCHED_CSR2CSC&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a32da455953694aac0b5e837bd3f1c31a">embedding_forward_split_cpu.cpp</a></li>
+<li>INVOKE_GROUP_INDEX_SELECT_OR_ADD&#160;:&#160;<a class="el" href="sparse__group__index_8cu.html#acc7197a16e3ef386f0fd807a0919110b">sparse_group_index.cu</a></li>
+<li>INVOKE_KERNEL_WITH_DIM&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc">common.cuh</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_tensor_ops_cpu.cpp</a></li>
+<li>INVOKE_LINEARIZE_INDEX_KERNEL&#160;:&#160;<a class="el" href="transpose__embedding__input_8cu.html#ac03452638c5653f404a402f9f7356841">transpose_embedding_input.cu</a></li>
+<li>INVOKE_PROCESS_ALL_INDICES&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>INVOKE_PROCESS_ALL_INDICES_HELPER&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a65e818853d870f84ef24b703b0e02618">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_j.html b/globals_defs_j.html
new file mode 100644
index 000000000..cf436865d
--- /dev/null
+++ b/globals_defs_j.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_j" name="index_j"></a>- j -</h3><ul>
+<li>JAGGED_TENSOR_DISPATCH_DIMS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a8f3cc6f3a1a83750715b4ddcb228ca8b">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_l.html b/globals_defs_l.html
new file mode 100644
index 000000000..02fe91802
--- /dev/null
+++ b/globals_defs_l.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>LAUNCH_AUC_KERNEL&#160;:&#160;<a class="el" href="metric__ops_8cu.html#af8d70229cb61aff5f2f2e8f1abb10440">metric_ops.cu</a></li>
+<li>LAUNCH_INDEX_SELECT&#160;:&#160;<a class="el" href="sparse__index__select_8cu.html#a501f87ecefcbe28091d9a1c48499d3f6">sparse_index_select.cu</a></li>
+<li>LAUNCH_KERNEL&#160;:&#160;<a class="el" href="keyed__jagged__index__select__dim1_8cu.html#a2ffb148e7bce97b5375e01ac265cc967">keyed_jagged_index_select_dim1.cu</a></li>
+<li>LDG&#160;:&#160;<a class="el" href="sparse__ops_2common_8cuh.html#a9e7ecd25c1168b19568b2ba40a731c39">common.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_m.html b/globals_defs_m.html
new file mode 100644
index 000000000..0b3b2deed
--- /dev/null
+++ b/globals_defs_m.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ae2a2547758e08761f973874a074b4fc1">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PACKED_TENSOR_ACCESSOR_BASE&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ad5bf508fef6a8c9528a8f1c316bfd491">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PTA_ACC_WITH_NAME&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#a23a5f2ae4f72b11bd67c678ae14d9af7">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PTA_WITH_NAME&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">fbgemm_tensor_accessor.h</a></li>
+<li>max&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#affe776513b24d84b39af8ab0930fef7f">fbgemm_cuda_utils.cuh</a></li>
+<li>min&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#ac6afabdc09a49a433ee19d8a9486056d">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_n.html b/globals_defs_n.html
new file mode 100644
index 000000000..78e533b2c
--- /dev/null
+++ b/globals_defs_n.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>NVML_CHECK&#160;:&#160;<a class="el" href="topology__utils_8cpp.html#af1ec00426a14a4658189ab308ea76636">topology_utils.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_p.html b/globals_defs_p.html
new file mode 100644
index 000000000..54e659773
--- /dev/null
+++ b/globals_defs_p.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>PLATFORM_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#adbc5372f40838899018fadbc89bd588b">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#adbc5372f40838899018fadbc89bd588b">CMakeCXXCompilerId.cpp</a></li>
+<li>PRIVATE_CASE_TYPE_CACHE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ab66dce26ee489c79f3a0441be14902fa">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_CACHE_EMB&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a98d43954b688bc60b943227d761487b3">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_EMB&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#af2c9e16b5345c0cdb6611357e0ec15db">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_OUTPUT&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a3905d2ceab136e10c35a2ff4fe29a7d0">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_OUTPUT2&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a17577aa7f884011133210418a790641a">dispatch_macros.h</a></li>
+<li>PT2_COMPLIANT_TAG&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a3b8ceecef1ba0067d90eea1764298cda">dispatch_macros.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_q.html b/globals_defs_q.html
new file mode 100644
index 000000000..7d7f9348a
--- /dev/null
+++ b/globals_defs_q.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>QUANTIZE_OPS_MAX&#160;:&#160;<a class="el" href="quantize__ops_2common_8cuh.html#ac84aa8e4e97b2a4675ec853e802ec4c6">common.cuh</a></li>
+<li>QUANTIZE_OPS_MIN&#160;:&#160;<a class="el" href="quantize__ops_2common_8cuh.html#a7c9f79708fed845d68b88205e5a1c70c">common.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_s.html b/globals_defs_s.html
new file mode 100644
index 000000000..4c722fc24
--- /dev/null
+++ b/globals_defs_s.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>SHFL_SYNC&#160;:&#160;<a class="el" href="embedding__backward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495">embedding_backward_template_helpers.cuh</a>, <a class="el" href="embedding__forward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495">embedding_forward_template_helpers.cuh</a></li>
+<li>SMEM_CACHE_WEIGHT_DATA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_CACHE_WEIGHT_PTR&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_EMB_WEIGHT_DATA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a741fa81333f21f397dd7bcb524345f77">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_EMB_WEIGHT_PTR&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a240239b93a27d2333aba0661096e3f2f">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>SMEM_GENERIC_PTR&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_OFFSET&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_PTR_BASE&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>STRINGIFY&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a43e1cad902b6477bec893cb6430bd6c8">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a43e1cad902b6477bec893cb6430bd6c8">CMakeCXXCompilerId.cpp</a></li>
+<li>STRINGIFY_HELPER&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">CMakeCXXCompilerId.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_t.html b/globals_defs_t.html
new file mode 100644
index 000000000..03212bd4e
--- /dev/null
+++ b/globals_defs_t.html
@@ -0,0 +1,100 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>TENSOR_CONTIGUOUS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a333341c9590667c47753510e0da7b6e3">sparse_ops_utils.h</a></li>
+<li>TENSOR_CONTIGUOUS_AND_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a0378cd5f9e716f13079b83a9b9805691">sparse_ops_utils.h</a></li>
+<li>TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a350ade6aa989687c2ca8ced000e200ff">sparse_ops_utils.h</a></li>
+<li>TENSOR_EMPTY_OR_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a73ab1987fec37ac982ae1ed77be0e3ea">sparse_ops_utils.h</a></li>
+<li>TENSOR_EMPTY_OR_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aff83e4ada08cf70146ffc4ac2009aa9a">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_EQUALS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a485f848acf189619cb61a0ae7534eaa1">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_EXCEEDS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#acfab048550cb0518bdb1ac267ef1e7ba">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_IS_GE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#abd9e69a82885e6e361275a0b08ebe565">sparse_ops_utils.h</a></li>
+<li>TENSOR_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5d19d4051835acd2c6d83eb637341010">sparse_ops_utils.h</a></li>
+<li>TENSOR_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ac6089c2908cb1ae6367af5cf7bbea30d">sparse_ops_utils.h</a></li>
+<li>TENSOR_TYPE_MUST_BE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a003b5640cfa59fe8f5da9b1c9fcb8f26">sparse_ops_utils.h</a></li>
+<li>TENSORS_EMPTY_OR_ON_SAME_DEVICE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a3df91ae56fe10d1c002bed63e5b78d1b">sparse_ops_utils.h</a></li>
+<li>TENSORS_HAVE_SAME_NUMEL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a9be1e573e7d3e35f3db03210e2624e61">sparse_ops_utils.h</a></li>
+<li>TENSORS_HAVE_SAME_TYPE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a97687675a3398d3168fe8f07a1b4db87">sparse_ops_utils.h</a></li>
+<li>TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a4724e1d67266b6998b8fe4ef1ec743d9">sparse_ops_utils.h</a></li>
+<li>TENSORS_ON_SAME_DEVICE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aa6ef8e13e3280066cc5f4f0970d3e7a6">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_w.html b/globals_defs_w.html
new file mode 100644
index 000000000..502d8b4cc
--- /dev/null
+++ b/globals_defs_w.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>WEIGHT_OFFSET&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_x.html b/globals_defs_x.html
new file mode 100644
index 000000000..39b477fa1
--- /dev/null
+++ b/globals_defs_x.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>X&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">embedding_forward_quantized_split_nbit_host_template.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_defs_y.html b/globals_defs_y.html
new file mode 100644
index 000000000..0d8e93a10
--- /dev/null
+++ b/globals_defs_y.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all macros with links to the files they belong to:</div>
+
+<h3><a id="index_y" name="index_y"></a>- y -</h3><ul>
+<li>Y&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#acec51faeb0681c58de451cb9d59abe95">embedding_forward_quantized_split_nbit_host_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_e.html b/globals_e.html
new file mode 100644
index 000000000..dd422e524
--- /dev/null
+++ b/globals_e.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>else&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0544c3fe466e421738dae463968b70ba">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>emulate_cache_miss()&#160;:&#160;<a class="el" href="split__embeddings__cache__cuda_8cuh.html#a8f112d04838c2019df06ffbb84dbafba">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__find_8cu.html#a8a80ce6ea3d62b9f22ac391767b34538">lru_cache_find.cu</a></li>
+<li>eps&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3af1a7fb1e7c77ec014031cd2e1d0837">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_enum.html b/globals_enum.html
new file mode 100644
index 000000000..a1cf5ea62
--- /dev/null
+++ b/globals_enum.html
@@ -0,0 +1,84 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all enums with links to the files they belong to:</div><ul>
+<li>LXU_CACHE_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>SAVED_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_eval.html b/globals_eval.html
new file mode 100644
index 000000000..acd9d6c22
--- /dev/null
+++ b/globals_eval.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all enum values with links to the files they belong to:</div><ul>
+<li>P_index_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_indices&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_lxu_cache_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_num_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>P_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_outputs&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_total_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_f.html b/globals_f.html
new file mode 100644
index 000000000..46bc0bdc8
--- /dev/null
+++ b/globals_f.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>false&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7ccf30944601039563603d837470824c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a39a233002f8c2aadb3206424d3cf33ed">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a678e19ebc31d391a2101878805cfec04">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#a05118d1db073d73fe80ee01b40791cf6">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a311bf35bff79e995c3e6d7d2e6a69952">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_AND_HALF&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a6db9b7506116844ae45993577c3b9ac4">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a60faa23c8d1bf9d75a2e598a5654ecff">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ab9329efe2d7882cbc2bd358b6672c292">dispatch_macros.h</a></li>
+<li>FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a7c7e35b09a14b3d5b76339803712ce7e">dispatch_macros.h</a></li>
+<li>FBGEMM_GPU_CUB_NS_PREFIX&#160;:&#160;<a class="el" href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">cub_namespace_postfix.cuh</a></li>
+<li>FBGEMM_GPU_ENUM_CREATE_TAG&#160;:&#160;<a class="el" href="enum__utils_8h.html#a769a65d91133d4f233bcf10280ff7a3c">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_GLOGAL&#160;:&#160;<a class="el" href="enum__utils_8h.html#adc8e24189b6f5a58092ade0b27e197b1">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_ITEM&#160;:&#160;<a class="el" href="enum__utils_8h.html#aef8d28be61e5e22bac45bf59c53dabbd">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_OP&#160;:&#160;<a class="el" href="enum__utils_8h.html#abcc6d46ce5e5452b5b49f96ae0aa67f3">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_END&#160;:&#160;<a class="el" href="enum__utils_8h.html#a1fc46fffc78f3820ce4668b6b2a92b55">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_START&#160;:&#160;<a class="el" href="enum__utils_8h.html#a3c1089cc9b549d33d50c20c14b348950">enum_utils.h</a></li>
+<li>FBGEMM_GPU_ENUM_TAG&#160;:&#160;<a class="el" href="enum__utils_8h.html#aae161db28429e0e2aa9001448f52e2f4">enum_utils.h</a></li>
+<li>FBGEMM_OP_DISPATCH()&#160;:&#160;<a class="el" href="quantize__msfp_8cu.html#abba68956be833439bf5ecabfe3880300">quantize_msfp.cu</a>, <a class="el" href="quantize__hfp8_8cu.html#a137d7c9cbf1612b410dd45b3bbebbea0">quantize_hfp8.cu</a>, <a class="el" href="quantize__fused__nbit__rowwise_8cu.html#af782044b726c577b026de55ab1e37681">quantize_fused_nbit_rowwise.cu</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#a858ecafbed2f155f42fe99391b82e4b4">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="quantize__fused__nbit__rowwise_8cu.html#acc803cc30f01a51dcba4d3e89471a836">quantize_fused_nbit_rowwise.cu</a>, <a class="el" href="quantize__fused__8bit__rowwise_8cu.html#a36f61e129797f0efa0fa02acd3bf1628">quantize_fused_8bit_rowwise.cu</a>, <a class="el" href="quantize__bfloat16_8cu.html#a4ed2eb1cae3301906c55dc98ee5ce687">quantize_bfloat16.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#a61110a1a4f03edaa3322b245624b294e">jagged_to_padded_dense_forward.cu</a>, <a class="el" href="sparse__expand__into__jagged__permute_8cu.html#af4f7b3da9350e95957c452753c2569a7">sparse_expand_into_jagged_permute.cu</a>, <a class="el" href="sparse__segment__sum__csr_8cu.html#ae64cf20351791f453c8f3156ed01c224">sparse_segment_sum_csr.cu</a>, <a class="el" href="sparse__range_8cu.html#a7a62f9a9f0e7b39a3331e3cee8be776e">sparse_range.cu</a>, <a class="el" href="sparse__permute__embeddings_8cu.html#a2281b30913187261c5233174f3f9622c">sparse_permute_embeddings.cu</a>, <a class="el" href="sparse__permute__2d_8cu.html#a16728339b915be3a73e7bced8598849f">sparse_permute_2d.cu</a>, <a class="el" href="sparse__permute__1d_8cu.html#aa28c2751b385fa3416aa12a3dd2cb039">sparse_permute_1d.cu</a>, <a class="el" href="sparse__permute102_8cu.html#aa5a7770ccd8e2e72012a3035579d2cfc">sparse_permute102.cu</a>, <a class="el" href="sparse__invert__permute_8cu.html#a472cc598c3ed7832c2866f8aaed5fdc8">sparse_invert_permute.cu</a>, <a class="el" href="quantize__msfp_8cu.html#ace6d6f85efbdd32b7378b07a2e394166">quantize_msfp.cu</a>, <a class="el" href="sparse__bucketize__features_8cu.html#a9f5c60b5d418eded60f0c447ae38c450">sparse_bucketize_features.cu</a>, <a class="el" href="sparse__block__bucketize__features_8cu.html#ac393348a81fe14a2734e4a221b3e028c">sparse_block_bucketize_features.cu</a>, <a class="el" href="sparse__async__cumsum_8cu.html#a1fe1796f45f950ba568e1f5fb38d3da8">sparse_async_cumsum.cu</a>, <a class="el" href="quantize__ops__gpu_8cpp.html#a18e52d6b9f96ae0c9f7552f54808d958">quantize_ops_gpu.cpp</a>, <a class="el" href="jagged__index__select__2d__forward_8cu.html#a769ab9425e6b9229e5197a606072f7f7">jagged_index_select_2d_forward.cu</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a83e06ed43d316e587c86bd1b83a233a8">jagged_tensor_ops.cu</a>, <a class="el" href="jagged__softmax__forward_8cu.html#ad64b64d7d37e8e47389d74bbb5b9287f">jagged_softmax_forward.cu</a>, <a class="el" href="jagged__softmax__backward_8cu.html#af86af3150ade27ed65bffd51e7fd389a">jagged_softmax_backward.cu</a>, <a class="el" href="jagged__jagged__bmm__forward_8cu.html#ad970c4b273bd75194ccced952b277f40">jagged_jagged_bmm_forward.cu</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#a941e973d6b74e10046ae3373ba10bda2">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="jagged__index__add__2d__forward_8cu.html#a6fbf3dbceb513f8dfa17d68303b4e1f1">jagged_index_add_2d_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html#a55ae1a4e6489decd594fc7c77fb36cd4">jagged_dense_elementwise_mul_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#a56064ede1846b15cd7ee664d3ac0f447">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#a4dc38a80ec480c8ba5e73920df40ade3">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__bmm__forward_8cu.html#a10db24b3c6258b287f12eb591b6b1274">jagged_dense_bmm_forward.cu</a>, <a class="el" href="dense__to__jagged__forward_8cu.html#a2f09e89f2172cc358cfffdc866220276">dense_to_jagged_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html#ae6d9314c75be8852a64432f06a618a51">batched_dense_vec_jagged_2d_mul_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html#a505e960fb46aaed90cbf00060c4f7f73">batched_dense_vec_jagged_2d_mul_backward.cu</a>, <a class="el" href="ops__utils_8h.html#aed63a3f5bb9ae1c01f230bee2d95ea05">ops_utils.h</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a84c5e68f36966340db42aa25785290df">jagged_tensor_ops.cu</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#a7590e07b38befcd57df567cb054cfad3">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#a1ec90ab98c9d6c18099549dce392fd65">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="keyed__jagged__index__select__dim1_8cu.html#a69db0b3f600c7c45db29069cd05d3bea">keyed_jagged_index_select_dim1.cu</a>, <a class="el" href="jagged__unique__indices_8cu.html#aaf228a3ce26c3ae9c749573883b59be5">jagged_unique_indices.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#a65d732670fec1bee849caf445b2903e7">jagged_to_padded_dense_forward.cu</a>, <a class="el" href="jagged__to__padded__dense__backward_8cu.html#a0ec346f5fe59608b8e13809432c9a389">jagged_to_padded_dense_backward.cu</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a48e6bd6975582a7ce4ceff6712fa6ef9">jagged_tensor_ops.cu</a></li>
+<li>fd_B&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a6b3d6f3af7d65ed111be48db11a4cc24">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a2d1eb541d5bdde0bf935a46f15efb9f4">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a488a7f217a1d4705fbcdce81e0a028b2">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>fd_num_warps_per_table&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></li>
+<li>fixed_L_per_warp&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acac1f3391492ec3c4a8942ec48197027">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>float&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a></li>
+<li>float_to_sto_half_assemblefloat()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#afb0f683c8db4e3b5d5fd504735c60b25">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_bitcarry()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a0fa16f5c4aa1d84c03f25daeb10e9422">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_direct()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#af0a4d95d246fb468f1b26eace73794f3">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_shortrand()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#aecab575916373f334a644238b6e02cf2">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>flush_cache()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a65d8faf79602cb52dbf1c3dc90db0cbd">verify_fp16_stochastic_benchmark.cu</a>, <a class="el" href="bench__utils_8cuh.html#a7fcbe2b8cc9b7676bb24b328fd41dc3a">bench_utils.cuh</a></li>
+<li>flush_gpu()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab211bd95de3d67a08c95c5d7f070dfcb">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>fma()&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a2a539cccb1f62bb145cef234b6608c7f">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func.html b/globals_func.html
new file mode 100644
index 000000000..d96b6e2f1
--- /dev/null
+++ b/globals_func.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index__5F" name="index__5F"></a>- _ -</h3><ul>
+<li>__launch_bounds__()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a08d8db556761e8e68193b2cc8a32a1cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abf79428f3dcf0b60bcff9074d587aeaf">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a99c23e8020a9ae93a0d0d429c6940707">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aacedf2a727684a316ae18abf5670f8e8">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a158fb407fba50cda959d3a60cbc01d91">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ade29dc18e73de993e107177d9568fbdf">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a79b96d6a0be54ea86ebd1cadeedd2068">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#ad4cbc31bac8a8d965f3549045cd85999">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4987b540b661f1caa132231f415c45a9">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a709a4f70083ce173ce40562aa52ad3c8">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ac9a5abe82611fbf748e346094a7b24b2">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae73620aca9ffc6e0cfd3b9cb594bdaf0">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2af51d716ed8d2b1a926e0f237b76f71">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#afd015e1d0e79f14de8ed5bdf578c81df">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a63e7a313c891f643c307bd05041a5b54">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a320b7cb4717a06125d1e05149e7414a9">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aec3f0f560b496881e95413f483dc0c32">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#aaa0317297f080a5b537f22049d8ecbbe">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a4c67d23288adf2fc636e9db4c30bfa5e">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aaba75f921548599cff242a4033a381c9">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad0d4a168e8e591add8c872d4c2fff64a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a634a690ed27c50d8308bcc0a9bf85acc">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ac9d49c8094b87daf6025d9195437119e">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ad7474c2dcf75a987f9526e730542ae16">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a73ddb7ffe3131b43c027bed87a21da0c">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a557205856561135a510a45e915bc0714">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a15977bf39e5dbde54bc2d1176a9272b9">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a9c866240eb5eb8df0da4e1ee803e04cf">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a18e29f7653534f3a75e41cf3056d2634">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a56d820ab8e2e5c1e815ecbe5e906075e">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a254195fbabfff3c3ad9ba04db100afae">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a28a51c35ffb6aac4d6b35c9b87960129">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abacbb190c3b418788aa37c065b93e703">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ae73b050da138bd46bcb186f630a45f1e">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a1296e33305fd2cde7e9e34e18e7e7905">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed">embedding_backward_split_grad_template.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a98033ae44aee4b9db7201fdad50c28db">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a718566769c1ceda303b72d8876532ea6">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a02d4931cef892bdaf44d3ab510f0d655">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a0f7cdacc2963885ca7eddcf74c44c1e7">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a2b31286ebfaa57f2a8e43418dc0cc2bc">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#ab54a42bb86f9a913d382b4938e3b023f">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a4c26c8149d8b4a96823082303a657531">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#aea453d06a5b06a7263bbb3c3c598b805">embedding_backward_split_grad_template.cu</a>, <a class="el" href="embedding__backward__split__kernel__cta__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd">embedding_backward_split_kernel_cta_template.cu</a>, <a class="el" href="embedding__backward__split__kernel__warp__template_8cu.html#aa63bd2cb4cfc6b18191236e0a85bdd26">embedding_backward_split_kernel_warp_template.cu</a>, <a class="el" href="embedding__backward__split__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd">embedding_backward_split_template.cu</a>, <a class="el" href="embedding__bounds__check_8cu.html#a9fcdcf37685cd2ec9b88dfac7e77aaaa">embedding_bounds_check.cu</a>, <a class="el" href="embedding__forward__split__kernel__nobag__small__template_8cu.html#a5c289e92014011ec16430dabf2272ae8">embedding_forward_split_kernel_nobag_small_template.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a9bbd05d6885ea75e7564678a52104538">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="embedding__optimizer__split__kernel__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900">embedding_optimizer_split_kernel_template.cu</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900">embedding_optimizer_split_template.cu</a>, <a class="el" href="bench__utils_8cuh.html#a59e0073dcf6e90b2d7a7b38f6210cb50">bench_utils.cuh</a>, <a class="el" href="transpose__embedding__input_8cu.html#a91943a24b789081d81916b94ee7789ad">transpose_embedding_input.cu</a>, <a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a7d15f4b6131224480844be177fe6b28d">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a422182213e14442c911aa3ba3ed18a58">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a040a74b95b542902bfb38bacd03202eb">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a02bd16452698dd0ae512e183e1ed25bb">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ab2b8f92ece6c5a09d11a65969626378d">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ca2ae3bf6df90dd1f3a4bf8b534231e">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a412bd503e722e4451e55ef89a4bb3649">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a419781019c14d9d59041ca2a127d2c1a">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ab27358be96fd39a3d879e0e3f942c616">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a0178272d43da8f09567a976c98e4617c">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aa128173842fe96c64a581b2efdd5fe7e">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a40c420d5aadf8202b8a9de25931c44ff">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ab08dd38a042ee1b012a6db152e28df6d">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a41deb3b48278a02504f49a2a3dc15cd8">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9b1f7936d16c021a06b52e10047d17c9">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#af345685cdddd68d8304b0804863bc611">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a134107427281e66b9bdc1f05e0ed2006">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#aa53241ccd067fda3b4f745364d104ae7">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#aef74039cc67d8a29f2964dd2ead5c884">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#af4e9ad9da78c796024828e400596398e">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a727c25d68451d781ee3328a76b544770">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a02950b6e35152a847c545ef90af6c315">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#adf6d412fe63bcfdcd84fc4e45f616217">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a60ab111bc496bd3b843b3d73350f6695">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#ad49c5c5e6c69ba836c2c3728d383cd5c">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a71d10fab767a3f6a4c9845432b7c673b">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a141a421e122929281f3a968d7181075d">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a321e6c7a5bc2c920f083dadb4d023bae">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a8f6c6ea91c21be19960e453b8f83698b">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4d92990636a3fcdbe762a413cc96c642">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a044189dd94a5b69db982c5e78a8258f4">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#aec8fd1dccb91dec69eee635d8cc8cae3">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa9d0b42dc9a6b6c25005e5adc6a412e3">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a502bf7dfa5a02ec71b77763a65ec91c5">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad265ff9fd07f592055eb413d73ff59a3">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#af1eb0a147a3656c72bff10b68454c23b">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#afe75d514238f01862b4416d072a457ab">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aab67c7ff63262ed7ee2955ab54fd6cdb">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#aec97e553558684266790dc906158a105">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a50cb7dfbe0185fcbd26cfd0156710acc">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a7f198a235aa56925b36d48d029f9a26a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2ca5c0c3b7f03146b0739206987a8efb">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae7b604d06f2afe4b8d99b94b6a7ca46f">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a479b62e3a680d0eb604b0d99c497dc44">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a665c5d75524a34cec6f5b5258b182d7a">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aeb6425d7cade524ae83445d8ffcad95a">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a8a0814be275ca40dd482231bf8be61ef">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a30fd75bf7de9f2dd4c1af90a76cc4cab">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a1e6a8699bf2c46477da50582e38ee237">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aa7724fd36f338edda8cec8fbce0dcc3f">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa9475900cea03cb0a61e0e16932e01a4">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a4d483ee9ae74898f27f8070e41c4fced">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a440dc2054a1346ad291f617540be2e25">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#ab435787b7738dff4daa1eca5ed8725dd">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a250b8485cb708a3fe1d789613014b238">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae96e8ad601ac1adb859d3aec074bb439">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a59f00431d3950b72f6e7d89baf3fde0b">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a965b9c456ca6a6dffb664f585401250d">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ad23ff52f91efba0cbff48134c3a42bc4">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#afd63238f6b7c4a1e468568bda42bb3e0">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aeea6e4ebbd44a284f8e1078cf3efdaad">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a41774547fd61442443c1967f1a8e8b13">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a84d2573599cb14db8200acded518dd53">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#aee08a6146cbf90f361a828e6d2ff4ede">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae203f025f99b18448dfd355a519c4121">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a84dcaeb939254f551d6c356d1eca8747">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae9187ee78b193e34f92875da955dc6de">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a65ebc941a004af813be547c2114c6eca">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a78a9d364ed7043a1412228b17a0406a1">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aac66a737c59bab7e9f767b1e38d5f1d3">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a4e2287d8d0e80b53a592337a64570d66">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#afa2ba02eba70da5c0a8fdcd8509e7e77">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afcf8fbf4f5013c1082ce86fa5c3a5fd4">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a8ea3bce56ea941e3716f81220ab88fe5">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a0c5ac630cac3e582871b2521984d3691">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a1be3f22e4eb6db21e09d922580c54faf">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a89a6fc31913b2347216065f4655b82ff">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#aa2038bd1822625bd55a38eed4240c39a">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#acd2e3179752c56bfdde47a8ad7a00220">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a49683c14f18b75fafd2a5ce3f90c7d61">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6c8f5295879f30dac04285180744b05b">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a55340037f2150aa438d4cb6675412e7e">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#adda6d498fce399be1bb4ff6c884cd325">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab6d47d46fccfb5d973f8ff2a44bff7a">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a60776cad67cb695e9768c1ce170aed12">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#ae41fadf6abfe1e00dccedd18b90dab32">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a584ad4898a3e03f279eb3a39c419735e">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></li>
+<li>_update_kernel()&#160;:&#160;<a class="el" href="embedding__optimizer__split__kernel__template_8cu.html#afab484072b9b8381500b14e31ba49364">embedding_optimizer_split_kernel_template.cu</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#afab484072b9b8381500b14e31ba49364">embedding_optimizer_split_template.cu</a></li>
+<li>_v2_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a20b736346ad19821ed9748c4dde5b058">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_a.html b/globals_func_a.html
new file mode 100644
index 000000000..79c8f1aed
--- /dev/null
+++ b/globals_func_a.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>adjust_info_B_num_bits()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#aaaa05e63829893f17b951de7dc993747">split_embeddings_utils.cuh</a>, <a class="el" href="get__infos__metadata_8cu.html#a315ee6fa620a68c902298d741ac8989d">get_infos_metadata.cu</a></li>
+<li>adjust_offset_kernel()&#160;:&#160;<a class="el" href="embedding__bounds__check_8cu.html#af9e26c2f2d6dfef45e1a12507d8c2b72">embedding_bounds_check.cu</a></li>
+<li>asynchronous_complete_cumsum()&#160;:&#160;<a class="el" href="transpose__embedding__input_8cu.html#ae27e2b1fda2a338ce8f7f2207b580e7f">transpose_embedding_input.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_b.html b/globals_func_b.html
new file mode 100644
index 000000000..15935a133
--- /dev/null
+++ b/globals_func_b.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>batch_index_select_dim0_codegen_backward_cuda()&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#a5709eebbefa399282269508003e47e25">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#a5709eebbefa399282269508003e47e25">batch_index_select_dim0_host.cpp</a></li>
+<li>batch_index_select_dim0_codegen_forward_cuda()&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a5951ed801e11a01c29c7bbfb648ee230">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#a5951ed801e11a01c29c7bbfb648ee230">batch_index_select_dim0_host.cpp</a></li>
+<li>batch_index_select_dim0_cpu()&#160;:&#160;<a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#aa719f2231fb791074324f6bbeace9d0c">batch_index_select_dim0_cpu_host.cpp</a></li>
+<li>batch_index_select_dim0_gpu()&#160;:&#160;<a class="el" href="batch__index__select__dim0__host_8cpp.html#a5bad7a4ddb5cf6144ad19b6296ef585c">batch_index_select_dim0_host.cpp</a></li>
+<li>benchmark_function()&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a8b8729bf92a232e1ff3403ebe7089fdd">bench_utils.cuh</a></li>
+<li>binary_search_range_cpu()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a519154f3b89148b1b70e45d8c340ff81">sparse_ops_utils.h</a></li>
+<li>bounds_check_indices_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e">embedding_bounds_check.cu</a>, <a class="el" href="group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e">embedding_bounds_check_host.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_c.html b/globals_func_c.html
new file mode 100644
index 000000000..283321896
--- /dev/null
+++ b/globals_func_c.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>convert_float_to_half_assemblefloat()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#abbb1b78a4249b42b116429258ac56174">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_bitcarry()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a46898a808f7408d99e7ad4c7fc0fea2a">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_direct()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a169a7087c41e8efae2d09cfc78fa802e">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>convert_float_to_half_shortrand()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab109332ca0fae3f39a7d000348a1401c">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>cuda_calc_block_count()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ab702f2479ba0bedf91c18e0b644b210a">sparse_ops_utils.h</a></li>
+<li>cuda_calc_xblock_count()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369">sparse_ops_utils.h</a></li>
+<li>cuda_calc_xblock_count_base()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a885f787cafec301665604303ae43a2e3">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_d.html b/globals_func_d.html
new file mode 100644
index 000000000..32b48fc0a
--- /dev/null
+++ b/globals_func_d.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>DECL_RADIX_SORT_PAIRS_FN()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a665ecb055cdda875801b442d35297e10">split_embeddings_utils.cuh</a></li>
+<li>DEF_RADIX_SORT_PAIRS_FN()&#160;:&#160;<a class="el" href="radix__sort__pairs_8cu.html#aca8b050260de3f4f24d6bb405cbbdd85">radix_sort_pairs.cu</a></li>
+<li>dense_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a840483d38dd0ee3fe4b398ebee5bf3d7">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a840483d38dd0ee3fe4b398ebee5bf3d7">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9e6ce9ed24a999160137cd295420a9f">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></li>
+<li>dense_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="embedding__backward__dense__host_8cpp.html#a4e4e521f171d17c5d78bee2b3c9b21db">embedding_backward_dense_host.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a4e4e521f171d17c5d78bee2b3c9b21db">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a></li>
+<li>dense_embedding_codegen_forward_weighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#ac89d0c2dc36fc6053f0425a919711b3a">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a></li>
+<li>dense_embedding_codegen_grad_indice_weights_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#aa413d80f0ebbadd4375b29cfb27654b3">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aa413d80f0ebbadd4375b29cfb27654b3">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#aadd3974603c08fba6a7c21638a57e7f4">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aadd3974603c08fba6a7c21638a57e7f4">embedding_backward_dense_host.cpp</a></li>
+<li>dense_embedding_nobag_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9b06d5bef944e3f22c1b7d5faf0cc73">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a></li>
+<li>direct_mapped_lru_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__populate__byte_8cu.html#ab944b6f7e1df36b8ef0c4a911c1b0afb">lru_cache_populate_byte.cu</a></li>
+<li>direct_mapped_lxu_cache_lookup_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lxu__cache_8cu.html#a9a01f6df03e867e1871df306a6289e06">lxu_cache.cu</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_e.html b/globals_func_e.html
new file mode 100644
index 000000000..808d79bb2
--- /dev/null
+++ b/globals_func_e.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>emulate_cache_miss()&#160;:&#160;<a class="el" href="split__embeddings__cache__cuda_8cuh.html#a8f112d04838c2019df06ffbb84dbafba">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__find_8cu.html#a8a80ce6ea3d62b9f22ac391767b34538">lru_cache_find.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_f.html b/globals_func_f.html
new file mode 100644
index 000000000..b6837256b
--- /dev/null
+++ b/globals_func_f.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>false()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a311bf35bff79e995c3e6d7d2e6a69952">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#a05118d1db073d73fe80ee01b40791cf6">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7ccf30944601039563603d837470824c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a39a233002f8c2aadb3206424d3cf33ed">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afb14ab09e129e59e6e323cc8ad114e0a">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8c5c41f01ea1d775126bc194e1e95ecc">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>FBGEMM_OP_DISPATCH()&#160;:&#160;<a class="el" href="quantize__msfp_8cu.html#ace6d6f85efbdd32b7378b07a2e394166">quantize_msfp.cu</a>, <a class="el" href="quantize__hfp8_8cu.html#a137d7c9cbf1612b410dd45b3bbebbea0">quantize_hfp8.cu</a>, <a class="el" href="quantize__fused__nbit__rowwise_8cu.html#af782044b726c577b026de55ab1e37681">quantize_fused_nbit_rowwise.cu</a>, <a class="el" href="quantize__fused__8bit__rowwise_8cu.html#a36f61e129797f0efa0fa02acd3bf1628">quantize_fused_8bit_rowwise.cu</a>, <a class="el" href="quantize__bfloat16_8cu.html#a44eca6a446116eaa006c5bd0488d62f2">quantize_bfloat16.cu</a>, <a class="el" href="quantize__fused__8bit__rowwise_8cu.html#ac5c42d23d15559e0fab4a67b274ac722">quantize_fused_8bit_rowwise.cu</a>, <a class="el" href="quantize__bfloat16_8cu.html#a4ed2eb1cae3301906c55dc98ee5ce687">quantize_bfloat16.cu</a>, <a class="el" href="jagged__unique__indices_8cu.html#aaf228a3ce26c3ae9c749573883b59be5">jagged_unique_indices.cu</a>, <a class="el" href="sparse__invert__permute_8cu.html#a472cc598c3ed7832c2866f8aaed5fdc8">sparse_invert_permute.cu</a>, <a class="el" href="sparse__segment__sum__csr_8cu.html#ae64cf20351791f453c8f3156ed01c224">sparse_segment_sum_csr.cu</a>, <a class="el" href="sparse__range_8cu.html#a7a62f9a9f0e7b39a3331e3cee8be776e">sparse_range.cu</a>, <a class="el" href="sparse__permute__embeddings_8cu.html#a2281b30913187261c5233174f3f9622c">sparse_permute_embeddings.cu</a>, <a class="el" href="sparse__permute__2d_8cu.html#a16728339b915be3a73e7bced8598849f">sparse_permute_2d.cu</a>, <a class="el" href="sparse__permute__1d_8cu.html#aa28c2751b385fa3416aa12a3dd2cb039">sparse_permute_1d.cu</a>, <a class="el" href="sparse__permute102_8cu.html#aa5a7770ccd8e2e72012a3035579d2cfc">sparse_permute102.cu</a>, <a class="el" href="quantize__ops__gpu_8cpp.html#a0d298145c58d3db95b0838ab9e321626">quantize_ops_gpu.cpp</a>, <a class="el" href="sparse__expand__into__jagged__permute_8cu.html#af4f7b3da9350e95957c452753c2569a7">sparse_expand_into_jagged_permute.cu</a>, <a class="el" href="sparse__bucketize__features_8cu.html#a9f5c60b5d418eded60f0c447ae38c450">sparse_bucketize_features.cu</a>, <a class="el" href="sparse__block__bucketize__features_8cu.html#ac393348a81fe14a2734e4a221b3e028c">sparse_block_bucketize_features.cu</a>, <a class="el" href="sparse__async__cumsum_8cu.html#a1fe1796f45f950ba568e1f5fb38d3da8">sparse_async_cumsum.cu</a>, <a class="el" href="quantize__ops__gpu_8cpp.html#a18e52d6b9f96ae0c9f7552f54808d958">quantize_ops_gpu.cpp</a>, <a class="el" href="jagged__jagged__bmm__forward_8cu.html#ad970c4b273bd75194ccced952b277f40">jagged_jagged_bmm_forward.cu</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a5a65d954fda4f3313d036b22b3232872">jagged_tensor_ops.cu</a>, <a class="el" href="jagged__softmax__forward_8cu.html#ad64b64d7d37e8e47389d74bbb5b9287f">jagged_softmax_forward.cu</a>, <a class="el" href="jagged__softmax__backward_8cu.html#af86af3150ade27ed65bffd51e7fd389a">jagged_softmax_backward.cu</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#a7590e07b38befcd57df567cb054cfad3">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="jagged__index__select__2d__forward_8cu.html#a769ab9425e6b9229e5197a606072f7f7">jagged_index_select_2d_forward.cu</a>, <a class="el" href="jagged__index__add__2d__forward_8cu.html#a6fbf3dbceb513f8dfa17d68303b4e1f1">jagged_index_add_2d_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html#a55ae1a4e6489decd594fc7c77fb36cd4">jagged_dense_elementwise_mul_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#a56064ede1846b15cd7ee664d3ac0f447">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#a4dc38a80ec480c8ba5e73920df40ade3">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__bmm__forward_8cu.html#a10db24b3c6258b287f12eb591b6b1274">jagged_dense_bmm_forward.cu</a>, <a class="el" href="dense__to__jagged__forward_8cu.html#a2f09e89f2172cc358cfffdc866220276">dense_to_jagged_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html#ae6d9314c75be8852a64432f06a618a51">batched_dense_vec_jagged_2d_mul_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html#a505e960fb46aaed90cbf00060c4f7f73">batched_dense_vec_jagged_2d_mul_backward.cu</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a6b3f90be325532b25c5df0c87c15e083">jagged_tensor_ops.cu</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#a858ecafbed2f155f42fe99391b82e4b4">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#a1ec90ab98c9d6c18099549dce392fd65">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="keyed__jagged__index__select__dim1_8cu.html#a69db0b3f600c7c45db29069cd05d3bea">keyed_jagged_index_select_dim1.cu</a>, <a class="el" href="jagged__unique__indices_8cu.html#a674314745cbd8dd913142d0660083851">jagged_unique_indices.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#a1a53264bb9ade4d2796b87a966ab450c">jagged_to_padded_dense_forward.cu</a>, <a class="el" href="jagged__tensor__ops_8cu.html#a84c5e68f36966340db42aa25785290df">jagged_tensor_ops.cu</a>, <a class="el" href="jagged__to__padded__dense__backward_8cu.html#a0ec346f5fe59608b8e13809432c9a389">jagged_to_padded_dense_backward.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#a1526839450b4cbf68a2d6a70673e273a">jagged_to_padded_dense_forward.cu</a></li>
+<li>float_to_sto_half_assemblefloat()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#afb0f683c8db4e3b5d5fd504735c60b25">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_bitcarry()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a0fa16f5c4aa1d84c03f25daeb10e9422">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_direct()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#af0a4d95d246fb468f1b26eace73794f3">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>float_to_sto_half_shortrand()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#aecab575916373f334a644238b6e02cf2">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>flush_cache()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a65d8faf79602cb52dbf1c3dc90db0cbd">verify_fp16_stochastic_benchmark.cu</a>, <a class="el" href="bench__utils_8cuh.html#a7fcbe2b8cc9b7676bb24b328fd41dc3a">bench_utils.cuh</a></li>
+<li>flush_gpu()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab211bd95de3d67a08c95c5d7f070dfcb">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>fma()&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a2a539cccb1f62bb145cef234b6608c7f">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_g.html b/globals_func_g.html
new file mode 100644
index 000000000..8a0e614cf
--- /dev/null
+++ b/globals_func_g.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gen_8bit_random()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#aa292d49c7c13666d79ff4c646b5284f0">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>gen_data()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab5c51c16cea74c9decd6a2c957b515d9">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>generate_lxu_cache_locations()&#160;:&#160;<a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#ad12ee38ec43f8659ee8ce4f63f3857f4">uvm_cache_miss_emulate_test.cpp</a></li>
+<li>generate_random_table()&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a0899793cc86846edfa6ccefb7905f55c">bench_utils.cuh</a></li>
+<li>generate_vbe_metadata()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#ae0dcbedd529d5873ad0cac75397cb1f8">split_embeddings_utils.cuh</a>, <a class="el" href="generate__vbe__metadata_8cu.html#a9c89bc26edc2d2f4014204d89bd846eb">generate_vbe_metadata.cu</a></li>
+<li>get_D_bytes()&#160;:&#160;<a class="el" href="embedding__inplace__update__test_8cpp.html#a602d9bde988d40aaa1d846c76f8d87c7">embedding_inplace_update_test.cpp</a></li>
+<li>get_device_index_from_tensor()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a672c3da6666124b2950b2eef43587bc6">sparse_ops_utils.h</a></li>
+<li>get_infos_metadata()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a0994f8d37247e9754d069f16ee195c01">split_embeddings_utils.cuh</a>, <a class="el" href="get__infos__metadata_8cu.html#a487bdb340f5c93165158a37aaf156fe9">get_infos_metadata.cu</a></li>
+<li>get_next_bag_boundary_and_L()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>get_unique_indices_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">linearize_cache_indices.cu</a></li>
+<li>get_valid_cpu_tensor()&#160;:&#160;<a class="el" href="sparse__ops__utils__test_8cpp.html#a740d263ecb80b6e7cf28a86f561450b7">sparse_ops_utils_test.cpp</a></li>
+<li>gpuAtomicIncrement()&#160;:&#160;<a class="el" href="embedding__backward__template__helpers_8cuh.html#aa054bfcfa5ed7f584d2811fe48a2f757">embedding_backward_template_helpers.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_h.html b/globals_func_h.html
new file mode 100644
index 000000000..3266a1ccd
--- /dev/null
+++ b/globals_func_h.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>host_lxu_cache_slot()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">lxu_cache.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_i.html b/globals_func_i.html
new file mode 100644
index 000000000..90ff41100
--- /dev/null
+++ b/globals_func_i.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>if()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="bench__utils_8cuh.html#aa3487d3e764e516ac71de417077959a6">bench_utils.cuh</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af6822b01edff1e16c53f21b0c6142ffd">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>int_nbit_split_embedding_codegen_forward_unweighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#a9c3b5fb374c1ef95520bc4e30b66325e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a5a581a6131f9754699b4e5bb27b20ecb">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae65cbb34f3d373fe3e12b7bb899c1b10">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a79655cba701e82021eefe7fe8cb72916">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_lookup_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga0749f1c6540189dd47b32a56858f82fb">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_lookup_function_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#gac115303550aa9af7c170baef63bcdb00">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#ab6ae7551f9cd9d5cdb845240887aeaa1">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#af3d9ee6fd394ec0055de7f2c2acfba3d">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#a9b168b9b2d002f86f7f16211b83fced0">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a0545cdf708e09c0958f1538e7b4b29c9">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_uvm_caching_codegen_lookup_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#gaf5c83f0c03200546398764261403749d">embedding_forward_quantized_host_cpu.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_k.html b/globals_func_k.html
new file mode 100644
index 000000000..528c8266c
--- /dev/null
+++ b/globals_func_k.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>kWarpSize()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a91f984a560c40dcae1abbb2391fa2fda">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a9cd29bb0dd406092916c5eb0605aaf0d">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0d5d4738a27dacbbecc699b0297a6331">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#ad387d04e602a3a29f7b44eaeb1edb9fa">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6c5b8de0acb5391f4dc4172ce5ca094e">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a0c3bd53d12b516a80478d5a9017a684b">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a03929e871fb455cace7f23efc0d24583">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6014caa4aca0c9e7b583e71900a0a48c">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#ae079dac6052edf65f8a39b4fd9de7c70">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#ab20ec4fe16b91aae91640b2dd5452ed5">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ac79c384938b7bffef4943090b602ba5e">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abcba604787cbdb187f05ab27324d67f7">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af13fd6356fec61b096f429f666c4d50a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0cb98e4afaf555388869ebe3242fc7d0">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#affa3d280e56d69dbe39ea3bda0bcba6e">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a745a7f66bb6899e5071ee55e90f23368">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a4172fb110abe23887cdaf0536ef2bcaa">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ab903a35e3bd981f1436d46179b87ecb9">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a0b393ddcfa07501c936c09103420a327">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a1a4b7c2d1fb4fe724a9ddcefe4a3ad96">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ac0a2c283925ea0172a022b44ec4420ab">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ac9113b72a8883bfe52a840eaf6bf0bcc">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac99cf2df0002f1359da1a71821a5d7a6">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a006b3b6fd358ff41f9dad5c39f2cb330">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a3d28eecf8be5cfcbcd71fef6322ef6df">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a015143a1cf9641909ef5739492836ab9">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af9fea1c8c674df3acb9e76cafe6518fe">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ac2e2b47b2c51943f4ff8fabdfb57f270">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a026a0932fcb72fcf66460486db323e9f">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a62e5730bd70e4665352946a17b3fd18a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a799bc0e6eb13b05b038c910b7a650bd8">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a5f06095eeec3319c0936d2a99a095054">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ab2c641791d87abe8e19dcee2b3726819">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a50b88aba0d96371aba370d9894857aff">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a0e96ba84ab91aea304a2e6ac78eb1fa2">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a1ce149ce2e815f85f42f779e853b6384">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a0d5f1eb18d7aaf74fabc0d63a215062e">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a173df29f55015b4b4d8c9cdda6986823">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a24d7b65f902789f50e1a0fdc3c72da0e">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ae3f8662de26a86a0e1e1612804f49b52">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a3048e1d82f672e144f218a9bc1f02bba">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a031019a7e2638f18e08649bd6c279449">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a3dfcd6c505c277727fdc5a5efd1f21d2">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a9ddc1dda2eb92f1166514ddb7da1bbc4">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#ad6d957e4c772be151a4b6c0937b71e2c">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#aea91359dc803899d522a74120b6d587c">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#afcba725b1740e61675c5148dd9523082">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#af896552004ed24a4f6289bd6321b95b3">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aae8702725dfe41086ad78bb86764b34c">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a0ab8a7e2535ae5a3f056f529bcb1071a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a51028935eee6951c1298eb5d7092d650">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a027faf7fa459ca567059607e155a1546">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#afb628f9293807019a85f62216802fb27">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a067da40e6e91e38bb46e13bab2169087">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a99087a69215e3ecfff828e64866fb490">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#afdce4c5ff535f039b96169a5441d66f6">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#aefd9621d81effbb756e78929daae8517">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abdcfee895dc0dbe60f3899820e3faef6">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ad6141ba5c93e5aea872230ecd4a0d878">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#af585b19bb7928041ac8b70d56c7d6f1a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#adfec29a5a30407f3b60408b80419baac">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a568c659233485f309357ee134d1b748f">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a8e5539e49116fc0d95e74b70fff7eb96">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a8c3130a42a235a75553eaf160ac657dc">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8bd2c5adf9e33805340e4717cd9f0617">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a908dadafc7b1c847ac07f402090b784c">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6940aede0efad4a0cca521cfdcec433b">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#af6ea5271fc0e7434bb952837a4ec992c">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a2e2219247d875dadcb571833d8282ca4">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a861cd39a27db6459d3d308938724a605">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a9a42f11861e28ce77032f8047e83ea11">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a5917f6544b279539f51ba07a7d4d5ca5">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a240624068305d411db3cdece269f6a2f">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#aed68dca4d92a97e556d3073cab88a18f">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5d3923934afd4c41777f94dd36798bb8">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64537991cc98a52cb2bd884dbcc7bebc">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6854bab8c0d96882e4f9f980880531bc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad94f32bbc65499df3140ee3a12f12dbc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a1a5b4fc1cd662532df45be95fae00e34">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a027461b35f0b0e8c2245ef80575fe911">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#acb1714d604a523f5860b4c87e669c715">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a3b929350b08473bf7001fb6e8d38f64d">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ae8e719bacb730ff6f6f24b072264fece">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac2742fc3885cf36bb8ac4d7d4c24587f">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5ba8347d410dea8ce7952d7e5674a053">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#ae0574dfcf396c58dc8863401720dacb5">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#adae5d509289eae4626e7cc6eda18efbb">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ad491955b35ee3fb84ecdbc35426aa9c6">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a8f1dc526305df11d57d5151eb78864fd">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a97cc1b7bcf350b322be5238011334085">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8ecc1609ac62272a2c0f5a1e1cddbed5">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a356f3f696dd24ffa3fcf741fd8cd2ce7">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a095215da51de608e36ba8292e72c72af">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#ab671eaaed996f9f41eca1f557abae645">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ac34e39eb121e260238cc9a54f2d13a85">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a1edce0d6c349a03501ea2777a101af79">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a36b2d055ae9089bfecce1598d5ee5734">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#ac806eae9eee01106ea55ef146007dfe8">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a1078e271f687367cefee7d0e75efe3d6">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a06567b685179fac57c60d07bfc5596f9">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a8c8e7afc35b5a54e69b3826c35adf2de">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2431e3a9f193cb26104acb7111bb16e7">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a225fbb17a5d73ae68945ddba0baf3960">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#ad19427e173ef6c061d7a98427d69a595">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a74aa12547ff3a9b9787bcdffe7b95e71">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a03451f7ef0e82d0861c795948f00bf9b">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac93d19a97b3d9f1b1ae742787b03d5ba">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f1fea77b7579d1cab96be89c027396a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a28bf244596f3c3376a70af53e767ed7d">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a33f0706d826f38b6f36f4657f5a4bbbd">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5bf3f753d62805ba481f4394edfa3158">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ad8b31de2b716f254b2d55b709a332afa">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a3bf7d511b93dad425030c52ff0b35378">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a88a5089ba98be8ad981c0d2fd5c74657">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ae5ffff834bcf0d76a398a76c06a9d01b">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a390d0e97c72c325e3497aeaa3226d527">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a9ceb5776015ed4c35b0dabca7fa8f4c5">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2bfd2c4264e14c4f64b737892c1f4f06">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#ac768cc0753ab5318bbe47835d4f9fa9d">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a735bf953224cfed630501bf38342b07c">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a025db262738d28e0f6d0073da9eecc1c">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#ad3382f93d63430516e0fa4ee3dfcd35b">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a99d2945d0e14c762a262971ad5cdddca">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a9a65221171b1118ec811d883a600b7eb">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a93379bd0b52108c09ce0c6012c1a0bc4">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a9efa56f919a034ad1c2eb4339babfacd">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ab111a2635d39331e5dde581b2cf5ab40">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a2dcf33b730969fab9d8d9e13f5812500">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a58dd95b539386ce0756417ffa7e3c675">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aafa7d80ed4b830a47066853afca5adb8">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abe7a518fe77140a9f84658b9be73ca57">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#af70ed3aa3b3e9f4ef10054777ea73ab1">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aea8e820a7a4bc3fe64bb6c818542a3aa">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a36dbb2ed81d41998cd4ddd239f6e18ff">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7643d87610f1fd256807566fcae51c36">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a1a126c0d3c9315985228744121d10f65">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a46d814dea7a25a249b9e0fc0c82023ed">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a021fc973b5fc3d624856c3095ea0d8c5">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#ab9a28b117d8d2c802b31c3850cebf7ef">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a459aacd66b48c479d5773c84d129086d">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a07fe51377b6ac8933fda5657824dfa00">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#ad25cc23c713ce4d2ce9a057d23d66b8c">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a47b1f486724dfb5ef0c59660725ba49e">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a2992f3c3797e58777a7f7d6aff063137">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5cb5e51b17eeacd9818bc06b9eb55ddd">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aa8a6cd9058bac3b6775b6057a8b0beb2">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a28fd1bfeb870e4192c831675880469bc">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_l.html b/globals_func_l.html
new file mode 100644
index 000000000..4863b5e01
--- /dev/null
+++ b/globals_func_l.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>lfu_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte.cu</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">split_embeddings_cache_cuda.cuh</a></li>
+<li>lfu_cache_populate_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate.cu</a></li>
+<li>linearize_cache_indices_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices.cu</a></li>
+<li>linearize_cache_indices_from_row_idx_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices.cu</a></li>
+<li>lru_cache_find_uncached_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find.cu</a></li>
+<li>lru_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="lru__cache__populate__byte_8cu.html#a53a2183d85282ab5726018767388efe8">lru_cache_populate_byte.cu</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11">split_embeddings_cache_cuda.cuh</a></li>
+<li>lru_cache_populate_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__populate_8cu.html#ab841aec9d8660e547e492948a2ee9921">lru_cache_populate.cu</a></li>
+<li>lxu_cache_flush_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache.cu</a></li>
+<li>lxu_cache_locations_update_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lxu__cache_8cu.html#ac602137fddc0c895b176d959fa3fa8db">lxu_cache.cu</a></li>
+<li>lxu_cache_locking_counter_decrement_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache.cu</a></li>
+<li>lxu_cache_lookup_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lxu__cache_8cu.html#a083f4fd1219188cc40036595fa6921ab">lxu_cache.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_m.html b/globals_func_m.html
new file mode 100644
index 000000000..24e5e1e4b
--- /dev/null
+++ b/globals_func_m.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>main()&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a0ddf1224851353fc92bfbff6f499fa97">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a0ddf1224851353fc92bfbff6f499fa97">CMakeCXXCompilerId.cpp</a>, <a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a0ddf1224851353fc92bfbff6f499fa97">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>make_packed_tensor_accessor32()&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ae5c092ed88e41832d415d06d837889b3">fbgemm_tensor_accessor.h</a></li>
+<li>make_packed_tensor_accessor64()&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#add453d9931017b7ca11b84095566ae26">fbgemm_tensor_accessor.h</a></li>
+<li>masked_index_put_byte_cuda()&#160;:&#160;<a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#ac6846069e59fcf7c6fad94b1321b0dd0">ssd_split_table_batched_embeddings.cpp</a></li>
+<li>masked_index_put_cuda()&#160;:&#160;<a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a8a561f5585f09252076650c0d34457d7">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#a8a561f5585f09252076650c0d34457d7">ssd_split_table_batched_embeddings.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_p.html b/globals_func_p.html
new file mode 100644
index 000000000..f759f3195
--- /dev/null
+++ b/globals_func_p.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>permute_pooled_embs_kernel()&#160;:&#160;<a class="el" href="layout__transform__ops_8cuh.html#acf1671783450ed8e673d22cbc1d917b5">layout_transform_ops.cuh</a></li>
+<li>process_all_indices_large_Ls()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ad4f576c80cbb86fce55f5420968bc826">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>process_all_indices_no_pooling()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>process_all_indices_small_Ls()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a871fb6b516157e559e3ed26b56e4245c">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>pruned_array_lookup_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5">embedding_forward_quantized_host_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a></li>
+<li>pruned_array_lookup_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff">embedding_forward_quantized_host.cpp</a>, <a class="el" href="group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff">embedding_forward_quantized_split_lookup.cu</a></li>
+<li>pruned_hashmap_insert_unweighted_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>pruned_hashmap_insert_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a446403a1c26f7fecbc1c67fd9be87bf0">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></li>
+<li>pruned_hashmap_lookup_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7">embedding_forward_quantized_host.cpp</a>, <a class="el" href="group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7">embedding_forward_quantized_split_lookup.cu</a></li>
+<li>pruned_hashmap_lookup_unweighted_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>pruned_hashmap_lookup_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#ae0d1d716d565d7e70bd253dcd89d7f47">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_r.html b/globals_func_r.html
new file mode 100644
index 000000000..5a446a712
--- /dev/null
+++ b/globals_func_r.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>recat_copy_async_kernel()&#160;:&#160;<a class="el" href="layout__transform__ops_8cuh.html#a2f3c62685f843be282e18a9805d8ad5c">layout_transform_ops.cuh</a></li>
+<li>reset_weight_momentum_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79">reset_weight_momentum.cu</a></li>
+<li>run_emulate_cache_miss()&#160;:&#160;<a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#ac9959da4e8495e9b74415473535a9c3e">uvm_cache_miss_emulate_test.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_s.html b/globals_func_s.html
new file mode 100644
index 000000000..5183a733f
--- /dev/null
+++ b/globals_func_s.html
@@ -0,0 +1,189 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>split_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html#aae2b7a37c2c14a8e8575336d88932f5e">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a></li>
+<li>split_adam_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html#a415ebd6751961f1e6826cfe2712cc85e">gen_embedding_optimizer_adam_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html#a9263ef077d631b455021b5cfe68d9632">gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_with_counter_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#a2f7931888711cbd1dff1f7fda564b3a5">gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#a30fdc78bf391825590b69585779a9baf">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></li>
+<li>split_approx_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html#abcf3f2a323ec4155270a5fcfffecd462">gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh</a></li>
+<li>split_dense_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__dense__split__device__kernel_8cuh.html#a9a55851e1eec2af9f174c94e138a4aa7">gen_embedding_optimizer_dense_split_device_kernel.cuh</a></li>
+<li>split_embedding_backward_codegen_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca">gen_embedding_backward_split_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#a1207210a9545e9575750541d0b87d2ff">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a06b1cf5ad03a298c5257a31b33524398">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#a0e8cc9d4217b55864ac828677d7d546d">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#affb9be553e49e7bea6a6c3f60b63dc04">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#a7c3fa518fa48a831ea3f8e691672808e">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#ae27a3d26d13d596aaaa1e621990e0d71">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_adam_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#aea34407b88c9df5b3be55e8ea24a347d">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a8e4ae3bed221149c3b3ab6a5c0f38605">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#a346e3b137705a7c27ea4448090c853ca">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#afbce26182226d45104cf25fc6ebf90df">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a1ff3b73be256bfc5b6a6a92c35f5c101">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ae5ec715aff7b59ae2cd64991053a8744">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#a9872de3651e55555a2bea1c407c45c5d">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="embedding__backward__dense__host__cpu_8cpp.html#a16114b295cd4bb55fd704d1cc575284f">embedding_backward_dense_host_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af39484621a2a43237ee275c7d9497e16">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aebdb9ab2fd0166beebd42528ea223ac4">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#aeae20f9c1a93bb4297f2710fe00723a2">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a4a920500b84d7febde7964cfa515c690">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_backward_codegen_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#a45b16bde5dcd4ed361824c02fb19aa28">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abafaac43ca0a5d04be6280c0db92ef81">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_lamb_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#ac26e29ea75fba6b9f3922118cd293b96">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a2cb504a8487e7581fcf600c9dd9bb4da">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#a68717d5b465de7efb3f58ca7f1c9c48e">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#ad6a69a83e0c09e08c8854f3a988349c2">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#a3eff146e8f81f6d6dcc6e08f791b1c27">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a592a95a9e623ca87fb31c88bc11ef217">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_none_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#ac780b945eb2c0cff713ff7280122da42">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#ab8077c80baaf216fec8c7c0c81cd0c29">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_backward_codegen_none_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#a12b41a32a38b812420382dfb33a09e17">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a7808efa8b7d1caa4534528c97b55a26b">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#a4d39b6b803c05c33caf58b4a2fbf37ac">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a3d1da3b63c8a16884d3de8d52c0b99fd">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#ac295880f03c86cb263b324158e460e82">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aaa1e9d0adf68022fa575a63182a95745">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#a561ce0f1da43ca47001db85a395203e1">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ab047f1b46e810b2a48f66387d37cd588">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#a70ac0537228900edc94bbd437c550a15">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a6619694897abaeee44b975fa9614d7e3">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#aca4e3268cb308c63a299f50cde66dec1">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad73707297535524e1eeff86f23adfdfa">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#a85ffab9880f2b1221f86a7f63c088096">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae52a1e89225c55716b2505ef0b14b32c">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#a9e02b82c5db58357a98bc86454c2d7a5">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a394f3f0a5cbe256e703c0bb34bfe50b3">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af257dbbdb6a2c64fdb2e038bb39190c1">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#a0266589d7dcf9f22a9398090ae16abac">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#afa64170f02313b2766c2cc3e25d2f5a9">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#aea7503341318b3b0142a83d310046516">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#aeed29f5cd2c5bacfd4ed37b2381c128b">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a07c978ecc3495651d0123d01876f68ca">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#acc9cd7c72b1624ec0df8d9f4edbde2cb">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a9f5e043a0a43d92b7a748c27e6ce8060">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a969bc368ad46c57ab47feac737df5001">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a6cb23330ccfc55cc78d828d1fd8b59fb">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#a10025996061290114d6060505057ce7b">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a3a9f041d93d95908fbe76052c3d48a3e">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#a74ae14449034e73352a950be7faee8cd">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aad0ff2a4c042997b9969d779d3c91c59">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa">gen_embedding_backward_sgd_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa">gen_embedding_backward_split_sgd_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#ad2d75e84d796d6d8fae77c19e7a8af3b">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a8f7618b0f318fed552700a9303e0c500">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#a216acb29a8d546146f5593b5abd7eaa1">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#aa75d2899ee39c0d5f71e426d1cc7d57c">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#a16ec895b54d5b04f3fdfa67930c1c02a">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a2934aefc05b7ad4bc6e07074f0a2ee1e">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#a9ee8617b61b6a4be1391fe53321bf927">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a67f194387a7e81de22d969964f1cc379">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_codegen_forward_cpu()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8h.html#a01e2ccf0c687aa129f511c048dd878a2">embedding_forward_split_cpu.h</a>, <a class="el" href="embedding__forward__split__cpu_8cpp.html#aaf201bc6f5c8deb12999a3eff03cf7bb">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_codegen_forward_cpu_meta()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a0641f4b915d503586cb2d251029169e4">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a2b7fe88621ffc9b8dc0b55efafb6cb83">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_vbe_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#ac45ac774af2f2cdc3ef15fccacbc9866">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#a3f1b063bf337baa7c85cd891f50dcb17">gen_embedding_forward_split_weighted_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>split_embedding_codegen_forward_weighted_vbe_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#aafe550801c2d2c26cf43ccef3a6ac0e9">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_grad_indice_weights_cpu()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a03b54fa4944d00f3984442a980742701">embedding_forward_split_cpu.cpp</a>, <a class="el" href="embedding__forward__split__cpu_8h.html#a371a7887c9af52b22bdc10e84d5c2ba6">embedding_forward_split_cpu.h</a></li>
+<li>split_embedding_codegen_grad_indice_weights_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_codegen_grad_indice_weights_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gaa0988eef90f8662e8886912ed3784c1d">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_adam_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga639ddbb31e9d565bfcfa4766b14c9ef6">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gac847393d811e7b22ace39ff91eb91e27">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabf7587752fb66934350cec59cd7adda9">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga0a7191adb6807417bfaab85ccb6fac50">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabcff81381942478b57805e5deb7725fb">gen_embedding_backward_split_approx_sgd.cpp</a></li>
+<li>split_embedding_codegen_lookup_dense_function()&#160;:&#160;<a class="el" href="embedding__backward__dense__host_8cpp.html#a04b7d97e6fd0bbb6e9877db0c1b7e506">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_codegen_lookup_lamb_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga1c377dd2500d38974bbfe0e69243e084">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_codegen_lookup_lars_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_codegen_lookup_none_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga855a30b389de5a61097f44cff795b6c3">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_codegen_lookup_partial_rowwise_adam_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga06feb6c425fba7c460dc0da550d4e4e6">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_codegen_lookup_partial_rowwise_lamb_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga37b9129c928c9cb39459198f36f11c8d">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gacc3d997b675b747985dd37193cac4edd">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga917cf0c2c4487425408808529ed05e68">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga2e19021f546871ef6f1e57fca7cf5e13">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_weighted_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga54a40e0e64a528731d45bca998727a1c">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga66c2eb0df8e5dab40f0d862ebe43bd34">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_forward_cpu_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#af360a949beb9bba72466614e220da13d">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_grad_indice_weights_cpu_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a1156d3aee8ccb8a6676b22f78fe0829c">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#a635c3123249dcf767e8d80923e11a7b1">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#ad491e078738cfd46a4d2377948b977fc">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a6a9de0e9036f30dbd7d7e4442ae7e5fe">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#a6392bb8bf8131572a96cb5bf5a363152">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a></li>
+<li>split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#a8d755844b3dc430390b0db02833650a7">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a701f363d76409a2aa4df028f12ba0300">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#a11ce1782edb9d58fffb5fe2581172d70">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a7911ad2a461036b977d8d9f9fafb391a">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#ad6463435db98705077041803b394dcc3">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a557b019964c8d292ca9923927e0d974a">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#a0e0807f32e264e5a83586907ea3f6749">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a80df1bf7d746582f689d6bc4652f7266">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af181f8da92e59fb5da465d0931859e77">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a1540203f5279dd87016b397fe33fb041">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#a96e4c395674727814da03c2e1654487b">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aed21b16681b11ddd3303195bc4e278ec">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#a41c428effc52b315649ebd4bda728619">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad14c41705ba6da0dc89b8802945b9a3a">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a4bdf992307f845985594c371275668a8">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#a05fd1c9f2aea152f9cbe2def957c66fb">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#a0377d50ef90391567b4819a19bffb34c">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a7a94588a2cce7c8cad5f1654d5724ea3">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af25017968213662e5c8c0ab9f5fa7e9a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a31dd9b41f6ea038416e54092a7fcb594">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#a42435ea3b63f42213a2c24d4aadc84f6">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aaf57ee3cb4514d7ccec1c0f5bd653ed3">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#a2260d3e46945437faae7a44fe015bf7c">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#ad92e69305915e46befca51e7288b428b">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_nobag_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a580b1b950402848a3c71d7092a69ceb7">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></li>
+<li>split_embedding_rowwise_adagrad_update()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#a21a7b48ff9760f1aa13e260de4b7d2a9">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#ab369ffc9f9e69eca82b24131247ecfcf">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a></li>
+<li>split_lamb_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html#a2952f72a1e3f88f38246d2954dbee2b1">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a></li>
+<li>split_lars_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html#af488b727a53946064f329ad042bbf73a">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a></li>
+<li>split_none_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__none__split__device__kernel_8cuh.html#a2cb53295ff111df7a98fbc7573469c61">gen_embedding_optimizer_none_split_device_kernel.cuh</a></li>
+<li>split_partial_rowwise_adam_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html#a278aedfb9f50b7f5486dbc97e87cab8e">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a></li>
+<li>split_partial_rowwise_lamb_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html#a950ea306504584d6cc2050caf007295c">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html#aab5a925ed0316c38c00fcce3b1adc50a">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_with_counter_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#aa7708111891a0d2eeeda7881715427bb">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_with_weight_decay_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#ae265a93446a3c4665e857bc8b2f7d8d7">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></li>
+<li>split_rowwise_weighted_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html#a54b1af3a7b8db5fce48d934e47656c50">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a></li>
+<li>split_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html#ab768e225fdd76b64ab5c9114ed3cc7cc">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a></li>
+<li>ssd_cache_populate_actions_cuda()&#160;:&#160;<a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a872136033719ff00d6b05e94e4b1cbab">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#a872136033719ff00d6b05e94e4b1cbab">ssd_split_table_batched_embeddings.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_t.html b/globals_func_t.html
new file mode 100644
index 000000000..b8fbe9d58
--- /dev/null
+++ b/globals_func_t.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>tensor_on_same_gpu_if_not_optional_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5a8411338d3eef3620c7f5be3803c7cd">sparse_ops_utils.h</a></li>
+<li>TEST()&#160;:&#160;<a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#acdba631ddc8a5dc4e4ee2c02959d3e14">uvm_cache_miss_emulate_test.cpp</a>, <a class="el" href="tensor__assert__test_8cpp.html#af3ce575ab5810b31aae3455d53faacee">tensor_assert_test.cpp</a>, <a class="el" href="sparse__ops__utils__test_8cpp.html#ae888046a03bb3fe0f87d23c4915f6994">sparse_ops_utils_test.cpp</a>, <a class="el" href="cpu__kernel__test_8cpp.html#aa2c7091971cf4fd4bcbb3215ebe612cf">cpu_kernel_test.cpp</a>, <a class="el" href="embedding__inplace__update__test_8cpp.html#a8eb96d7f557ba896e48fef81f259d7a5">embedding_inplace_update_test.cpp</a></li>
+<li>test_embedding_inplace_update()&#160;:&#160;<a class="el" href="embedding__inplace__update__test_8cpp.html#aac82e2990c8f2f7d3957f862975181a0">embedding_inplace_update_test.cpp</a></li>
+<li>TORCH_LIBRARY_FRAGMENT()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__inplace__update__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_inplace_update_cpu.cpp</a>, <a class="el" href="split__embeddings__utils_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">split_embeddings_utils.cpp</a>, <a class="el" href="sparse__zipf_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_zipf.cu</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_ops_cpu.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">quantize_ops_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_split_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_split_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">merge_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">layout_transform_ops_cpu.cpp</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">jagged_tensor_ops_cpu.cpp</a>, <a class="el" href="input__combine__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">input_combine_cpu.cpp</a>, <a class="el" href="embedding__inplace__update__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_inplace_update_gpu.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="embedding__optimizer__split__host__template_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_optimizer_split_host_template.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_forward_quantized_host_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_forward_quantized_host.cpp</a>, <a class="el" href="embedding__bounds__check__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_bounds_check_host_cpu.cpp</a>, <a class="el" href="embedding__bounds__check__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_bounds_check_host.cpp</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_backward_dense_host.cpp</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">batch_index_select_dim0_host.cpp</a>, <a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">batch_index_select_dim0_cpu_host.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_cpu.cpp</a></li>
+<li>TORCH_LIBRARY_IMPL()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">split_embeddings_utils.cpp</a>, <a class="el" href="sparse__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">sparse_ops_meta.cpp</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#a8fd406590cd83f4dec4a63c7c1b9ce78">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">sparse_ops_cpu.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">quantize_ops_cpu.cpp</a>, <a class="el" href="quantize__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">quantize_ops_meta.cpp</a>, <a class="el" href="jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65">jagged_tensor_ops_autograd.cpp</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">jagged_tensor_ops_cpu.cpp</a>, <a class="el" href="jagged__tensor__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">jagged_tensor_ops_meta.cpp</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">layout_transform_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78">layout_transform_ops_gpu.cpp</a></li>
+<li>torch_tensor_device_name()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a535403fdc5c523b45f0d56d657e17f7b">sparse_ops_utils.h</a></li>
+<li>torch_tensor_empty_or_on_cpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a6328f240dd58293d0349471dca28797e">sparse_ops_utils.h</a></li>
+<li>torch_tensor_empty_or_on_cuda_gpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#abb9778e9fb75a70593c27e53dca268cd">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_cpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ad971d56f6b82b6c62a2d6fed276b0463">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_cuda_gpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5568d44e6066339da1326798f9637b16">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_same_device_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5683dd4c2143c3c0ba0eeb80fd5223f0">sparse_ops_utils.h</a></li>
+<li>torch_tensor_undefined()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ab583553d9bf8ca92fadb8a81ffd40cd8">sparse_ops_utils.h</a></li>
+<li>transpose_embedding_input()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a508f832d3fec529868cbb1f9fa9defc8">split_embeddings_utils.cuh</a>, <a class="el" href="transpose__embedding__input_8cu.html#a569a769e3233130cce363d9ae151bd26">transpose_embedding_input.cu</a></li>
+<li>true()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa41a6064cb3571ecd43c9da816216785">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#af0ccb06b8169682c123d1399ed8e1869">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9c2ae1d1bfa19b2caadbc8e76c32697c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>two_to_e()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab29b4915253bcafe11f5d95cfb227c0b">verify_fp16_stochastic_benchmark.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_func_w.html b/globals_func_w.html
new file mode 100644
index 000000000..75846380b
--- /dev/null
+++ b/globals_func_w.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all functions with links to the files they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>write_loop_small_Ls()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a784fce39007138a17294839676673bde">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_g.html b/globals_g.html
new file mode 100644
index 000000000..aff85615f
--- /dev/null
+++ b/globals_g.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>gen_8bit_random()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#aa292d49c7c13666d79ff4c646b5284f0">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>gen_data()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab5c51c16cea74c9decd6a2c957b515d9">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>generate_lxu_cache_locations()&#160;:&#160;<a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#ad12ee38ec43f8659ee8ce4f63f3857f4">uvm_cache_miss_emulate_test.cpp</a></li>
+<li>generate_random_table()&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a0899793cc86846edfa6ccefb7905f55c">bench_utils.cuh</a></li>
+<li>generate_vbe_metadata()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#ae0dcbedd529d5873ad0cac75397cb1f8">split_embeddings_utils.cuh</a>, <a class="el" href="generate__vbe__metadata_8cu.html#a9c89bc26edc2d2f4014204d89bd846eb">generate_vbe_metadata.cu</a></li>
+<li>get_D_bytes()&#160;:&#160;<a class="el" href="embedding__inplace__update__test_8cpp.html#a602d9bde988d40aaa1d846c76f8d87c7">embedding_inplace_update_test.cpp</a></li>
+<li>get_device_index_from_tensor()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a672c3da6666124b2950b2eef43587bc6">sparse_ops_utils.h</a></li>
+<li>get_infos_metadata()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a0994f8d37247e9754d069f16ee195c01">split_embeddings_utils.cuh</a>, <a class="el" href="get__infos__metadata_8cu.html#a487bdb340f5c93165158a37aaf156fe9">get_infos_metadata.cu</a></li>
+<li>get_next_bag_boundary_and_L()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>get_unique_indices_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">linearize_cache_indices.cu</a></li>
+<li>get_valid_cpu_tensor()&#160;:&#160;<a class="el" href="sparse__ops__utils__test_8cpp.html#a740d263ecb80b6e7cf28a86f561450b7">sparse_ops_utils_test.cpp</a></li>
+<li>global_warp_id&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>gpuAtomicIncrement()&#160;:&#160;<a class="el" href="embedding__backward__template__helpers_8cuh.html#aa054bfcfa5ed7f584d2811fe48a2f757">embedding_backward_template_helpers.cuh</a></li>
+<li>grad_dev_indices&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>grad_dev_weights&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_h.html b/globals_h.html
new file mode 100644
index 000000000..2dc805484
--- /dev/null
+++ b/globals_h.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>half4&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b">common.cuh</a></li>
+<li>half8&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6">common.cuh</a></li>
+<li>HEX&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a46d5d95daa1bef867bd0179594310ed5">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a46d5d95daa1bef867bd0179594310ed5">CMakeCXXCompilerId.cpp</a></li>
+<li>host_lxu_cache_slot()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">lxu_cache.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_i.html b/globals_i.html
new file mode 100644
index 000000000..dd15dd165
--- /dev/null
+++ b/globals_i.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>if()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a37c3fe73e60868097d45b151e9c4a430">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="bench__utils_8cuh.html#aa3487d3e764e516ac71de417077959a6">bench_utils.cuh</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af6822b01edff1e16c53f21b0c6142ffd">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>index_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>indices&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac6808dbd8c1563373cd2bf230c07e283">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a983b46d1ccd1b8d7ee0f786801acdabf">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>info_arch&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a59647e99d304ed33b15cb284c27ed391">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a59647e99d304ed33b15cb284c27ed391">CMakeCXXCompilerId.cpp</a></li>
+<li>info_compiler&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a4b0efeb7a5d59313986b3a0390f050f6">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a4b0efeb7a5d59313986b3a0390f050f6">CMakeCXXCompilerId.cpp</a></li>
+<li>info_language_extensions_default&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a0f46a8a39e09d9b803c4766904fd7e99">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a0f46a8a39e09d9b803c4766904fd7e99">CMakeCXXCompilerId.cpp</a></li>
+<li>info_language_standard_default&#160;:&#160;<a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a4607cccf070750927b458473ca82c090">CMakeCXXCompilerId.cpp</a>, <a class="el" href="_c_make_c_compiler_id_8c.html#a4607cccf070750927b458473ca82c090">CMakeCCompilerId.c</a></li>
+<li>info_platform&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a2321403dee54ee23f0c2fa849c60f7d4">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a2321403dee54ee23f0c2fa849c60f7d4">CMakeCXXCompilerId.cpp</a></li>
+<li>INSTANTIATE_BATCHED_CSR2CSC&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a32da455953694aac0b5e837bd3f1c31a">embedding_forward_split_cpu.cpp</a></li>
+<li>int64_t&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#af261ebff9d4ab236e8dd6bea30db7fb1">gen_embedding_backward_split_grad.cu</a></li>
+<li>int_nbit_split_embedding_codegen_forward_unweighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#a9c3b5fb374c1ef95520bc4e30b66325e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a5a581a6131f9754699b4e5bb27b20ecb">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae65cbb34f3d373fe3e12b7bb899c1b10">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a79655cba701e82021eefe7fe8cb72916">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_lookup_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga0749f1c6540189dd47b32a56858f82fb">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_codegen_lookup_function_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#gac115303550aa9af7c170baef63bcdb00">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#ab6ae7551f9cd9d5cdb845240887aeaa1">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#af3d9ee6fd394ec0055de7f2c2acfba3d">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#a9b168b9b2d002f86f7f16211b83fced0">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#a0545cdf708e09c0958f1538e7b4b29c9">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_uvm_caching_codegen_lookup_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0">embedding_forward_quantized_host.cpp</a></li>
+<li>int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#gaf5c83f0c03200546398764261403749d">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>INVOKE_GROUP_INDEX_SELECT_OR_ADD&#160;:&#160;<a class="el" href="sparse__group__index_8cu.html#acc7197a16e3ef386f0fd807a0919110b">sparse_group_index.cu</a></li>
+<li>INVOKE_KERNEL_WITH_DIM&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc">common.cuh</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc">jagged_tensor_ops_cpu.cpp</a></li>
+<li>INVOKE_LINEARIZE_INDEX_KERNEL&#160;:&#160;<a class="el" href="transpose__embedding__input_8cu.html#ac03452638c5653f404a402f9f7356841">transpose_embedding_input.cu</a></li>
+<li>INVOKE_PROCESS_ALL_INDICES&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>INVOKE_PROCESS_ALL_INDICES_HELPER&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a65e818853d870f84ef24b703b0e02618">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>is_small_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>is_zero_total_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_j.html b/globals_j.html
new file mode 100644
index 000000000..861d3247d
--- /dev/null
+++ b/globals_j.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_j" name="index_j"></a>- j -</h3><ul>
+<li>JAGGED_TENSOR_DISPATCH_DIMS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a8f3cc6f3a1a83750715b4ddcb228ca8b">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_k.html b/globals_k.html
new file mode 100644
index 000000000..d501cacc7
--- /dev/null
+++ b/globals_k.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>kBackwardMaxThreads&#160;:&#160;<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">embedding_backward_template_helpers.cuh</a></li>
+<li>kCacheLocationMissing&#160;:&#160;<a class="el" href="embedding__forward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321">embedding_forward_template_helpers.cuh</a>, <a class="el" href="embedding__backward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321">embedding_backward_template_helpers.cuh</a></li>
+<li>kForwardMaxThreads&#160;:&#160;<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">embedding_forward_template_helpers.cuh</a></li>
+<li>kStackArrayMaxDims&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ab6183b92f9eac6ca49e3055d79dfc83d">sparse_ops_utils.h</a></li>
+<li>kWarpSize()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0c158805e4537d8825326a3ecddf9c9c">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#ad387d04e602a3a29f7b44eaeb1edb9fa">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a04d2d84d9856aa9de1f36e1813d4c172">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#af1c9033199b40adc628848b21f60b950">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#ac6a60f786cbc800c9b675f386c1014ab">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6c5b8de0acb5391f4dc4172ce5ca094e">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a4172fb110abe23887cdaf0536ef2bcaa">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a012a4e2ee1f52bb243e5388eec3e8a5c">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a0dadc1a7dd7578c22f5d239047bf7794">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a03929e871fb455cace7f23efc0d24583">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6014caa4aca0c9e7b583e71900a0a48c">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a33f05c8d5a2149e88f0c5a0a446357c2">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a0c3bd53d12b516a80478d5a9017a684b">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ac79c384938b7bffef4943090b602ba5e">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abcba604787cbdb187f05ab27324d67f7">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a4f470748a75cfc59c5c7a0cb577289f2">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#affa3d280e56d69dbe39ea3bda0bcba6e">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#ae079dac6052edf65f8a39b4fd9de7c70">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#aa47b1b3531724ee008b8a88a913375d4">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ac9113b72a8883bfe52a840eaf6bf0bcc">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ac0a2c283925ea0172a022b44ec4420ab">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#adde42935e2ebd0c4cbfb5a925c603d3c">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a0b393ddcfa07501c936c09103420a327">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a006b3b6fd358ff41f9dad5c39f2cb330">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a3947e811d4918cac9bd3e70fcce80126">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ae5efcbb0aa7b60c29535ac9c49bbb00a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a015143a1cf9641909ef5739492836ab9">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af003bb8591ecd9b6b755807f601cbde6">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a799bc0e6eb13b05b038c910b7a650bd8">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a026a0932fcb72fcf66460486db323e9f">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a62e5730bd70e4665352946a17b3fd18a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#aaccb85f565c3b1d5a36dbf413fe05ec4">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af9fea1c8c674df3acb9e76cafe6518fe">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ab2c641791d87abe8e19dcee2b3726819">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ae319b79d484f9cfb10ddf935cf3dce8c">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a3d28eecf8be5cfcbcd71fef6322ef6df">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a1ce149ce2e815f85f42f779e853b6384">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a0d5f1eb18d7aaf74fabc0d63a215062e">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a93d410b588239e17ac8e10d7d6e291a0">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a50b88aba0d96371aba370d9894857aff">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ae3f8662de26a86a0e1e1612804f49b52">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a469aee03c0d8fde04842d8747ef880bb">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a9ddc1dda2eb92f1166514ddb7da1bbc4">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a3dfcd6c505c277727fdc5a5efd1f21d2">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a067da40e6e91e38bb46e13bab2169087">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a3048e1d82f672e144f218a9bc1f02bba">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#aea91359dc803899d522a74120b6d587c">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a573d877b87f31127000da9bc22ad74f2">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a8e5539e49116fc0d95e74b70fff7eb96">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aae8702725dfe41086ad78bb86764b34c">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a0ab8a7e2535ae5a3f056f529bcb1071a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0e17c23a544e4b4ebaf07d215ece084f">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#afcba725b1740e61675c5148dd9523082">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#afb628f9293807019a85f62216802fb27">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a43cd667ed17b8606af1dd1f5027311a4">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abdcfee895dc0dbe60f3899820e3faef6">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#aefd9621d81effbb756e78929daae8517">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a2463ea08e2eade6932bdc3b08dbf3f4b">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a99087a69215e3ecfff828e64866fb490">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ad6141ba5c93e5aea872230ecd4a0d878">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a95cb4e2cdf49f5f5ba2f9a2acf3ff32d">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a51028935eee6951c1298eb5d7092d650">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a568c659233485f309357ee134d1b748f">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a981ec80c80a0ca3713a250bca8dcfd2d">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#af585b19bb7928041ac8b70d56c7d6f1a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8bd2c5adf9e33805340e4717cd9f0617">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a29dc67ef45e2c108c079066771ca4b15">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a2e2219247d875dadcb571833d8282ca4">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#af6ea5271fc0e7434bb952837a4ec992c">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#aabf9c6be454bf78678fc82ba87ed2b56">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a908dadafc7b1c847ac07f402090b784c">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a9a42f11861e28ce77032f8047e83ea11">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a5917f6544b279539f51ba07a7d4d5ca5">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aed55f18c1fecec6d6de78577918449a0">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a173df29f55015b4b4d8c9cdda6986823">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#aed68dca4d92a97e556d3073cab88a18f">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5d3923934afd4c41777f94dd36798bb8">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a160f8f69b25890024d8d91dd87bbba82">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a240624068305d411db3cdece269f6a2f">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad94f32bbc65499df3140ee3a12f12dbc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ac111217914f0bc07a2ec19cf00f46b52">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a3b929350b08473bf7001fb6e8d38f64d">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#acb1714d604a523f5860b4c87e669c715">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a79789b33f1e3e7e2f3908b939ae1e44c">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a1a5b4fc1cd662532df45be95fae00e34">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac2742fc3885cf36bb8ac4d7d4c24587f">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5d38c3b8f12784860c0d0219684a22f2">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64537991cc98a52cb2bd884dbcc7bebc">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#adae5d509289eae4626e7cc6eda18efbb">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a48f4d0c7f7758b5149c9d96abb61354d">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5ba8347d410dea8ce7952d7e5674a053">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ad491955b35ee3fb84ecdbc35426aa9c6">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a8f1dc526305df11d57d5151eb78864fd">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a023ead14754421961a4b473a3b1bb81c">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8d2430849bd51fc5ad283d1a300cabba">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a377694b1c0ce71b8d0c56077a904f7d7">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a5ff2b2e15a95a8d176f99a8eebddf45d">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3fd0b06c245d1deda1dfd409ef777dbc">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a11b62696a1fcc6753a62e4b7b78987a9">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a188fb685cd69453ab94f992332f523a9">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ae6c1506493e5d8b4539080b206713dce">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2309228f9f01e4fcfd7620b415458f5a">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#ab671eaaed996f9f41eca1f557abae645">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ac34e39eb121e260238cc9a54f2d13a85">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a9e80797bba1bde61de4e23580a123045">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a0beafd356bf1cfb6ea68ff7e1bd2992b">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a36b2d055ae9089bfecce1598d5ee5734">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a7fda08a8c83a3557857418ea43e4dea3">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a1078e271f687367cefee7d0e75efe3d6">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#aa0685df0fb0a672d3d2237bd536db1b3">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a8c8e7afc35b5a54e69b3826c35adf2de">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2431e3a9f193cb26104acb7111bb16e7">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a9ace33692ea18b9bd6c92308133c4499">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a447c3f2918447f50e234bb7c3e2b1532">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a03451f7ef0e82d0861c795948f00bf9b">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a74aa12547ff3a9b9787bcdffe7b95e71">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a91f7f08a7ae090f72ea7236ba0fb5c96">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ad9f02bfae155a2b4114e80ed9ef6390c">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f1fea77b7579d1cab96be89c027396a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a2166d1c956baff37ca5f2aa75dd5d29e">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5cb5e51b17eeacd9818bc06b9eb55ddd">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ad8b31de2b716f254b2d55b709a332afa">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a28bf244596f3c3376a70af53e767ed7d">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a3bf7d511b93dad425030c52ff0b35378">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a390d0e97c72c325e3497aeaa3226d527">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abf0dc6720193f4ab9a278a95c495572d">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a0386dbc79ea0aaacffbe7cf8cba78167">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a735bf953224cfed630501bf38342b07c">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2f8395d5782bc2895b99dde1a0a5ca20">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a99d2945d0e14c762a262971ad5cdddca">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a946e1b9e34decc6ef732c17c06eaf67b">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a216facff7aab2092d3300f52f73f441c">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abe7a518fe77140a9f84658b9be73ca57">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a9efa56f919a034ad1c2eb4339babfacd">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ab111a2635d39331e5dde581b2cf5ab40">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a9a65221171b1118ec811d883a600b7eb">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a2dcf33b730969fab9d8d9e13f5812500">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a58dd95b539386ce0756417ffa7e3c675">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aafa7d80ed4b830a47066853afca5adb8">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a0424cc55d1baf826ec4665dc699c0ee8">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ac9b1b580c02b691e732330917b4346b9">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aea8e820a7a4bc3fe64bb6c818542a3aa">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a9668523612cb73bdea52956fff1a645d">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a80acf7650ec2712ea7d51f7d5156fc39">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a021fc973b5fc3d624856c3095ea0d8c5">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a46d814dea7a25a249b9e0fc0c82023ed">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a0e9aa9538f85f1a20881b99a619ff138">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7643d87610f1fd256807566fcae51c36">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a459aacd66b48c479d5773c84d129086d">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a07fe51377b6ac8933fda5657824dfa00">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a837a847bd0e24c4c323f60f3cd49bb93">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a36dbb2ed81d41998cd4ddd239f6e18ff">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a47b1f486724dfb5ef0c59660725ba49e">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a2992f3c3797e58777a7f7d6aff063137">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#ad25cc23c713ce4d2ce9a057d23d66b8c">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a28fd1bfeb870e4192c831675880469bc">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_l.html b/globals_l.html
new file mode 100644
index 000000000..7abb4fea9
--- /dev/null
+++ b/globals_l.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>LAUNCH_AUC_KERNEL&#160;:&#160;<a class="el" href="metric__ops_8cu.html#af8d70229cb61aff5f2f2e8f1abb10440">metric_ops.cu</a></li>
+<li>LAUNCH_INDEX_SELECT&#160;:&#160;<a class="el" href="sparse__index__select_8cu.html#a501f87ecefcbe28091d9a1c48499d3f6">sparse_index_select.cu</a></li>
+<li>LAUNCH_KERNEL&#160;:&#160;<a class="el" href="keyed__jagged__index__select__dim1_8cu.html#a2ffb148e7bce97b5375e01ac265cc967">keyed_jagged_index_select_dim1.cu</a></li>
+<li>LDG&#160;:&#160;<a class="el" href="sparse__ops_2common_8cuh.html#a9e7ecd25c1168b19568b2ba40a731c39">common.cuh</a></li>
+<li>learning_rate&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a205f082b0bb0cee9301dc4e5d0521b5c">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>lfu_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte.cu</a></li>
+<li>lfu_cache_populate_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate.cu</a></li>
+<li>linearize_cache_indices_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices.cu</a></li>
+<li>linearize_cache_indices_from_row_idx_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices.cu</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">split_embeddings_cache_cuda.cuh</a></li>
+<li>Links&#160;:&#160;<a class="el" href="topology__utils_8h.html#a434a916b92f4caf48f14d480c6aa845a">topology_utils.h</a></li>
+<li>load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>load_d&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>lru_cache_find_uncached_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find.cu</a></li>
+<li>lru_cache_populate_byte_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__populate__byte_8cu.html#a53a2183d85282ab5726018767388efe8">lru_cache_populate_byte.cu</a></li>
+<li>lru_cache_populate_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lru__cache__populate_8cu.html#ab841aec9d8660e547e492948a2ee9921">lru_cache_populate.cu</a></li>
+<li>lxu_cache_flush_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache.cu</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">split_embeddings_cache_cuda.cuh</a></li>
+<li>lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a3c502d4dedd432c8940a937269071ddc">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a04f448d8b284fc09ac62abe6b241bfb0">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8204f76fc5db4c5c7ac336538fa9da1f">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>lxu_cache_locations_update_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="lxu__cache_8cu.html#ac602137fddc0c895b176d959fa3fa8db">lxu_cache.cu</a></li>
+<li>lxu_cache_locking_counter_decrement_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache.cu</a></li>
+<li>lxu_cache_lookup_cuda()&#160;:&#160;<a class="el" href="lxu__cache_8cu.html#a083f4fd1219188cc40036595fa6921ab">lxu_cache.cu</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f">split_embeddings_cache_cuda.cuh</a></li>
+<li>LXU_CACHE_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>lxu_cache_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1d665aaf5a0d98bca13be6c158653005">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2581c8ea9d11ed091efe32b3ec6d2920">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#aac2986832e167da4c333ea92ea3deff2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>LXU_PARAMS_CNT&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ae2a8bf21f0c677246d8d102686641b65">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_m.html b/globals_m.html
new file mode 100644
index 000000000..3c5a576d6
--- /dev/null
+++ b/globals_m.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>main()&#160;:&#160;<a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a0ddf1224851353fc92bfbff6f499fa97">CMakeCXXCompilerId.cpp</a>, <a class="el" href="_c_make_c_compiler_id_8c.html#a0ddf1224851353fc92bfbff6f499fa97">CMakeCCompilerId.c</a>, <a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#a0ddf1224851353fc92bfbff6f499fa97">verify_fp16_stochastic_benchmark.cu</a></li>
+<li>make_packed_tensor_accessor32()&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ae5c092ed88e41832d415d06d837889b3">fbgemm_tensor_accessor.h</a></li>
+<li>make_packed_tensor_accessor64()&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#add453d9931017b7ca11b84095566ae26">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ae2a2547758e08761f973874a074b4fc1">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PACKED_TENSOR_ACCESSOR_BASE&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#ad5bf508fef6a8c9528a8f1c316bfd491">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PTA_ACC_WITH_NAME&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#a23a5f2ae4f72b11bd67c678ae14d9af7">fbgemm_tensor_accessor.h</a></li>
+<li>MAKE_PTA_WITH_NAME&#160;:&#160;<a class="el" href="fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf">fbgemm_tensor_accessor.h</a></li>
+<li>mask&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a7d162c8b2172ea2cb7a10852acacc635">common.cuh</a></li>
+<li>masked_index_put_byte_cuda()&#160;:&#160;<a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#ac6846069e59fcf7c6fad94b1321b0dd0">ssd_split_table_batched_embeddings.cpp</a></li>
+<li>masked_index_put_cuda()&#160;:&#160;<a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a8a561f5585f09252076650c0d34457d7">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#a8a561f5585f09252076650c0d34457d7">ssd_split_table_batched_embeddings.cpp</a></li>
+<li>max&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#affe776513b24d84b39af8ab0930fef7f">fbgemm_cuda_utils.cuh</a></li>
+<li>MAX_B&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a8fe8da855c3ca31f1825ef6779aa2458">split_embeddings_utils.cuh</a></li>
+<li>max_D&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>max_D_cache&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a></li>
+<li>MAX_ENTRIES_PER_BLOCK&#160;:&#160;<a class="el" href="metric__ops_8cu.html#a9c50cd9bc9f8be967692db87d6fdf57f">metric_ops.cu</a></li>
+<li>max_norm&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5dad34a0e8f59dfa6c15365b5f987ba6">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>MAX_T&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a83944439cec525d70fcf8281a639760d">split_embeddings_utils.cuh</a></li>
+<li>mean_pooling&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></li>
+<li>min&#160;:&#160;<a class="el" href="fbgemm__cuda__utils_8cuh.html#ac6afabdc09a49a433ee19d8a9486056d">fbgemm_cuda_utils.cuh</a></li>
+<li>momentum1_dev&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af9476d367260e52c6a3bd31824072c06">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_offsets&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afd2978ce7ef7477233a8bda0aacde4e2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_placements&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a10602f96a8b9264528834b6a1763ffb1">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_uvm&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3f5ed4cb8fcb526d7476413516fd546f">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_n.html b/globals_n.html
new file mode 100644
index 000000000..4e1987367
--- /dev/null
+++ b/globals_n.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>Node&#160;:&#160;<a class="el" href="topology__utils_8h.html#a659b93920c81116289ee7ff5d45f48c9">topology_utils.h</a></li>
+<li>NUM_OFFSETS_PER_WARP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>NUM_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>NUM_THREADS_PER_BLOCK&#160;:&#160;<a class="el" href="metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517">metric_ops.cu</a></li>
+<li>NUM_WARPS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>num_warps_for_small_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>num_warps_per_row&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>NVML_CHECK&#160;:&#160;<a class="el" href="topology__utils_8cpp.html#af1ec00426a14a4658189ab308ea76636">topology_utils.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_o.html b/globals_o.html
new file mode 100644
index 000000000..d9793d928
--- /dev/null
+++ b/globals_o.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#aab1af2e6ba28faa781f71e91f2347d43">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6ed0a81091088c3c07a10b7fd8e63358">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>output&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa742bdb164d113128d3e9b155f95acfe">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a511b9e94b01de29a6671f16533eaf6dd">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#af6e6ad15bb4078d9c64b33a85e9618ec">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>output_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a48df3803c4f164ff153d5348c6f8f10f">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>output_vec_t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_p.html b/globals_p.html
new file mode 100644
index 000000000..97ac1943e
--- /dev/null
+++ b/globals_p.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>P_index_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_indices&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_lxu_cache_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_num_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_outputs&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>P_total_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>P_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>params_offset&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>permute_output_dim_0_1&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a5bd1879ce15d52289f55eb10253c8e8e">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>permute_pooled_embs_kernel()&#160;:&#160;<a class="el" href="layout__transform__ops_8cuh.html#acf1671783450ed8e673d22cbc1d917b5">layout_transform_ops.cuh</a></li>
+<li>PLATFORM_ID&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#adbc5372f40838899018fadbc89bd588b">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#adbc5372f40838899018fadbc89bd588b">CMakeCXXCompilerId.cpp</a></li>
+<li>PRIVATE_CASE_TYPE_CACHE&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#ab66dce26ee489c79f3a0441be14902fa">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_CACHE_EMB&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a98d43954b688bc60b943227d761487b3">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_EMB&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#af2c9e16b5345c0cdb6611357e0ec15db">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_OUTPUT&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a3905d2ceab136e10c35a2ff4fe29a7d0">dispatch_macros.h</a></li>
+<li>PRIVATE_CASE_TYPE_OUTPUT2&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a17577aa7f884011133210418a790641a">dispatch_macros.h</a></li>
+<li>process_all_indices_large_Ls()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ad4f576c80cbb86fce55f5420968bc826">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>process_all_indices_no_pooling()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>process_all_indices_small_Ls()&#160;:&#160;<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a871fb6b516157e559e3ed26b56e4245c">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>pruned_array_lookup_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>pruned_array_lookup_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff">embedding_forward_quantized_host.cpp</a>, <a class="el" href="group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff">embedding_forward_quantized_split_lookup.cu</a></li>
+<li>pruned_hashmap_insert_unweighted_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>pruned_hashmap_insert_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a446403a1c26f7fecbc1c67fd9be87bf0">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></li>
+<li>pruned_hashmap_lookup_cuda()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7">embedding_forward_quantized_host.cpp</a>, <a class="el" href="group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7">embedding_forward_quantized_split_lookup.cu</a></li>
+<li>pruned_hashmap_lookup_unweighted_cpu()&#160;:&#160;<a class="el" href="group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211">gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp</a>, <a class="el" href="group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211">embedding_forward_quantized_host_cpu.cpp</a></li>
+<li>pruned_hashmap_lookup_weighted_cpu()&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#ae0d1d716d565d7e70bd253dcd89d7f47">gen_embedding_forward_quantized_weighted_codegen_cpu.cpp</a></li>
+<li>PT2_COMPLIANT_TAG&#160;:&#160;<a class="el" href="dispatch__macros_8h.html#a3b8ceecef1ba0067d90eea1764298cda">dispatch_macros.h</a></li>
+<li>ptr_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#afbe2be78a3ee81b2e3c6821cec74e116">memory_utils.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_q.html b/globals_q.html
new file mode 100644
index 000000000..4f0ca5417
--- /dev/null
+++ b/globals_q.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>QUANTIZE_OPS_MAX&#160;:&#160;<a class="el" href="quantize__ops_2common_8cuh.html#ac84aa8e4e97b2a4675ec853e802ec4c6">common.cuh</a></li>
+<li>QUANTIZE_OPS_MIN&#160;:&#160;<a class="el" href="quantize__ops_2common_8cuh.html#a7c9f79708fed845d68b88205e5a1c70c">common.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_r.html b/globals_r.html
new file mode 100644
index 000000000..4a93896a7
--- /dev/null
+++ b/globals_r.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>recat_copy_async_kernel()&#160;:&#160;<a class="el" href="layout__transform__ops_8cuh.html#a2f3c62685f843be282e18a9805d8ad5c">layout_transform_ops.cuh</a></li>
+<li>reset_weight_momentum_cuda()&#160;:&#160;<a class="el" href="group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79">split_embeddings_cache_cuda.cuh</a>, <a class="el" href="group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79">reset_weight_momentum.cu</a></li>
+<li>row_start&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>run_emulate_cache_miss()&#160;:&#160;<a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#ac9959da4e8495e9b74415473535a9c3e">uvm_cache_miss_emulate_test.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_s.html b/globals_s.html
new file mode 100644
index 000000000..479cdfe00
--- /dev/null
+++ b/globals_s.html
@@ -0,0 +1,209 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>SAVED_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SAVED_PARAMS_CNT&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>SHFL_SYNC&#160;:&#160;<a class="el" href="embedding__forward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495">embedding_forward_template_helpers.cuh</a>, <a class="el" href="embedding__backward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495">embedding_backward_template_helpers.cuh</a></li>
+<li>smem&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>SMEM_CACHE_WEIGHT_DATA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_CACHE_WEIGHT_PTR&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a8f5221b4fcc0397e5c260e567afd000f">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_EMB_WEIGHT_DATA&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a741fa81333f21f397dd7bcb524345f77">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_EMB_WEIGHT_PTR&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a240239b93a27d2333aba0661096e3f2f">embedding_forward_split_kernel_v2_template.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>SMEM_GENERIC_PTR&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_OFFSET&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>SMEM_PTR_BASE&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#aec0d9a647d3bde05780ff426af9ebf45">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>sorted_lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a219575ab5da90e4fa43bbb6df6e7831b">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>split_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html#aae2b7a37c2c14a8e8575336d88932f5e">gen_embedding_optimizer_adagrad_split_device_kernel.cuh</a></li>
+<li>split_adam_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__adam__split__device__kernel_8cuh.html#a415ebd6751961f1e6826cfe2712cc85e">gen_embedding_optimizer_adam_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html#a9263ef077d631b455021b5cfe68d9632">gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_with_counter_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#a2f7931888711cbd1dff1f7fda564b3a5">gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></li>
+<li>split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#a30fdc78bf391825590b69585779a9baf">gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></li>
+<li>split_approx_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html#abcf3f2a323ec4155270a5fcfffecd462">gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh</a></li>
+<li>split_dense_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__dense__split__device__kernel_8cuh.html#a9a55851e1eec2af9f174c94e138a4aa7">gen_embedding_optimizer_dense_split_device_kernel.cuh</a></li>
+<li>split_embedding&#160;:&#160;<a class="el" href="embedding__backward__split__host__template_8cpp.html#a099fcb1910d50cb2f7bcfd36966c67f3">embedding_backward_split_host_template.cpp</a></li>
+<li>split_embedding_&#160;:&#160;<a class="el" href="embedding__optimizer__split__host__template_8cpp.html#a043dbacfe97bbbca3dfe0675f0073939">embedding_optimizer_split_host_template.cpp</a></li>
+<li>split_embedding_backward_codegen_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca">gen_embedding_backward_split_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#a1207210a9545e9575750541d0b87d2ff">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a06b1cf5ad03a298c5257a31b33524398">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#a0e8cc9d4217b55864ac828677d7d546d">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#affb9be553e49e7bea6a6c3f60b63dc04">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#a7c3fa518fa48a831ea3f8e691672808e">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#ae27a3d26d13d596aaaa1e621990e0d71">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_adam_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#aea34407b88c9df5b3be55e8ea24a347d">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a8e4ae3bed221149c3b3ab6a5c0f38605">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#a346e3b137705a7c27ea4448090c853ca">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#afbce26182226d45104cf25fc6ebf90df">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a1ff3b73be256bfc5b6a6a92c35f5c101">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ae5ec715aff7b59ae2cd64991053a8744">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#a9872de3651e55555a2bea1c407c45c5d">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="embedding__backward__dense__host__cpu_8cpp.html#a16114b295cd4bb55fd704d1cc575284f">embedding_backward_dense_host_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af39484621a2a43237ee275c7d9497e16">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#aebdb9ab2fd0166beebd42528ea223ac4">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_backward_codegen_dense_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#aeae20f9c1a93bb4297f2710fe00723a2">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a4a920500b84d7febde7964cfa515c690">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_backward_codegen_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#a45b16bde5dcd4ed361824c02fb19aa28">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abafaac43ca0a5d04be6280c0db92ef81">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_lamb_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a2cb504a8487e7581fcf600c9dd9bb4da">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#ac26e29ea75fba6b9f3922118cd293b96">gen_embedding_backward_lamb_split_weighted_cuda.cu</a></li>
+<li>split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#a68717d5b465de7efb3f58ca7f1c9c48e">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#ad6a69a83e0c09e08c8854f3a988349c2">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#a3eff146e8f81f6d6dcc6e08f791b1c27">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a592a95a9e623ca87fb31c88bc11ef217">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_none_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#ac780b945eb2c0cff713ff7280122da42">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#ab8077c80baaf216fec8c7c0c81cd0c29">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_backward_codegen_none_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#a12b41a32a38b812420382dfb33a09e17">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a7808efa8b7d1caa4534528c97b55a26b">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#a4d39b6b803c05c33caf58b4a2fbf37ac">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a3d1da3b63c8a16884d3de8d52c0b99fd">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#ac295880f03c86cb263b324158e460e82">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aaa1e9d0adf68022fa575a63182a95745">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#a561ce0f1da43ca47001db85a395203e1">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ab047f1b46e810b2a48f66387d37cd588">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#a70ac0537228900edc94bbd437c550a15">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a6619694897abaeee44b975fa9614d7e3">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#aca4e3268cb308c63a299f50cde66dec1">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad73707297535524e1eeff86f23adfdfa">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#a85ffab9880f2b1221f86a7f63c088096">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae52a1e89225c55716b2505ef0b14b32c">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#a9e02b82c5db58357a98bc86454c2d7a5">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a394f3f0a5cbe256e703c0bb34bfe50b3">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#a0266589d7dcf9f22a9398090ae16abac">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af257dbbdb6a2c64fdb2e038bb39190c1">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#afa64170f02313b2766c2cc3e25d2f5a9">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#aea7503341318b3b0142a83d310046516">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#aeed29f5cd2c5bacfd4ed37b2381c128b">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a07c978ecc3495651d0123d01876f68ca">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#acc9cd7c72b1624ec0df8d9f4edbde2cb">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a9f5e043a0a43d92b7a748c27e6ce8060">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a969bc368ad46c57ab47feac737df5001">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a6cb23330ccfc55cc78d828d1fd8b59fb">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#a10025996061290114d6060505057ce7b">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a3a9f041d93d95908fbe76052c3d48a3e">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#a74ae14449034e73352a950be7faee8cd">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aad0ff2a4c042997b9969d779d3c91c59">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_cpu()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa">gen_embedding_backward_sgd_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa">gen_embedding_backward_split_sgd_cpu.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#ad2d75e84d796d6d8fae77c19e7a8af3b">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a8f7618b0f318fed552700a9303e0c500">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#a216acb29a8d546146f5593b5abd7eaa1">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#aa75d2899ee39c0d5f71e426d1cc7d57c">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_weighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#a16ec895b54d5b04f3fdfa67930c1c02a">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a2934aefc05b7ad4bc6e07074f0a2ee1e">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#a9ee8617b61b6a4be1391fe53321bf927">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a67f194387a7e81de22d969964f1cc379">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_codegen_forward_cpu()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#aaf201bc6f5c8deb12999a3eff03cf7bb">embedding_forward_split_cpu.cpp</a>, <a class="el" href="embedding__forward__split__cpu_8h.html#a01e2ccf0c687aa129f511c048dd878a2">embedding_forward_split_cpu.h</a></li>
+<li>split_embedding_codegen_forward_cpu_meta()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a0641f4b915d503586cb2d251029169e4">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a2b7fe88621ffc9b8dc0b55efafb6cb83">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_unweighted_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a028ac1d276dc02b3db5e9195eea165f3">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a></li>
+<li>split_embedding_codegen_forward_unweighted_vbe_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#ac45ac774af2f2cdc3ef15fccacbc9866">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#a3f1b063bf337baa7c85cd891f50dcb17">gen_embedding_forward_split_weighted_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_forward_weighted_vbe_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#aafe550801c2d2c26cf43ccef3a6ac0e9">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a></li>
+<li>split_embedding_codegen_grad_indice_weights_cpu()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a03b54fa4944d00f3984442a980742701">embedding_forward_split_cpu.cpp</a>, <a class="el" href="embedding__forward__split__cpu_8h.html#a371a7887c9af52b22bdc10e84d5c2ba6">embedding_forward_split_cpu.h</a></li>
+<li>split_embedding_codegen_grad_indice_weights_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_codegen_grad_indice_weights_vbe_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_codegen_lookup_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gaa0988eef90f8662e8886912ed3784c1d">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_adam_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga639ddbb31e9d565bfcfa4766b14c9ef6">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gac847393d811e7b22ace39ff91eb91e27">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabf7587752fb66934350cec59cd7adda9">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga0a7191adb6807417bfaab85ccb6fac50">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_lookup_approx_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gabcff81381942478b57805e5deb7725fb">gen_embedding_backward_split_approx_sgd.cpp</a></li>
+<li>split_embedding_codegen_lookup_dense_function()&#160;:&#160;<a class="el" href="embedding__backward__dense__host_8cpp.html#a04b7d97e6fd0bbb6e9877db0c1b7e506">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_codegen_lookup_lamb_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga1c377dd2500d38974bbfe0e69243e084">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_codegen_lookup_lars_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_codegen_lookup_none_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga855a30b389de5a61097f44cff795b6c3">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_codegen_lookup_partial_rowwise_adam_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga06feb6c425fba7c460dc0da550d4e4e6">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_codegen_lookup_partial_rowwise_lamb_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga37b9129c928c9cb39459198f36f11c8d">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#gacc3d997b675b747985dd37193cac4edd">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga917cf0c2c4487425408808529ed05e68">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga2e19021f546871ef6f1e57fca7cf5e13">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_codegen_lookup_rowwise_weighted_adagrad_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga54a40e0e64a528731d45bca998727a1c">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_codegen_lookup_sgd_function()&#160;:&#160;<a class="el" href="group__embedding-cuda.html#ga66c2eb0df8e5dab40f0d862ebe43bd34">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_forward_cpu_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#af360a949beb9bba72466614e220da13d">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_grad_indice_weights_cpu_kernel()&#160;:&#160;<a class="el" href="embedding__forward__split__cpu_8cpp.html#a1156d3aee8ccb8a6676b22f78fe0829c">embedding_forward_split_cpu.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#a635c3123249dcf767e8d80923e11a7b1">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#ad491e078738cfd46a4d2377948b977fc">gen_embedding_backward_split_adagrad.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#a6392bb8bf8131572a96cb5bf5a363152">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a6a9de0e9036f30dbd7d7e4442ae7e5fe">gen_embedding_backward_split_adam.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#a8d755844b3dc430390b0db02833650a7">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a701f363d76409a2aa4df028f12ba0300">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#a11ce1782edb9d58fffb5fe2581172d70">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#a7911ad2a461036b977d8d9f9fafb391a">embedding_backward_dense_host.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#ad6463435db98705077041803b394dcc3">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a557b019964c8d292ca9923927e0d974a">gen_embedding_backward_split_lamb.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#a0e0807f32e264e5a83586907ea3f6749">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a80df1bf7d746582f689d6bc4652f7266">gen_embedding_backward_split_lars_sgd.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af181f8da92e59fb5da465d0931859e77">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a1540203f5279dd87016b397fe33fb041">gen_embedding_backward_split_none.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#a96e4c395674727814da03c2e1654487b">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aed21b16681b11ddd3303195bc4e278ec">gen_embedding_backward_split_partial_rowwise_adam.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad14c41705ba6da0dc89b8802945b9a3a">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#a41c428effc52b315649ebd4bda728619">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#a05fd1c9f2aea152f9cbe2def957c66fb">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a4bdf992307f845985594c371275668a8">gen_embedding_backward_split_rowwise_adagrad.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#a0377d50ef90391567b4819a19bffb34c">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a7a94588a2cce7c8cad5f1654d5724ea3">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af25017968213662e5c8c0ab9f5fa7e9a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a31dd9b41f6ea038416e54092a7fcb594">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#a42435ea3b63f42213a2c24d4aadc84f6">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aaf57ee3cb4514d7ccec1c0f5bd653ed3">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a></li>
+<li>split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda()&#160;:&#160;<a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#a2260d3e46945437faae7a44fe015bf7c">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#ad92e69305915e46befca51e7288b428b">gen_embedding_backward_split_sgd.cpp</a></li>
+<li>split_embedding_nobag_codegen_forward_unweighted_cuda()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a></li>
+<li>split_embedding_nobag_codegen_forward_unweighted_meta()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a580b1b950402848a3c71d7092a69ceb7">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a></li>
+<li>split_embedding_rowwise_adagrad_update()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#a21a7b48ff9760f1aa13e260de4b7d2a9">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#ab369ffc9f9e69eca82b24131247ecfcf">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a></li>
+<li>split_lamb_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html#a2952f72a1e3f88f38246d2954dbee2b1">gen_embedding_optimizer_lamb_split_device_kernel.cuh</a></li>
+<li>split_lars_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html#af488b727a53946064f329ad042bbf73a">gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh</a></li>
+<li>split_none_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__none__split__device__kernel_8cuh.html#a2cb53295ff111df7a98fbc7573469c61">gen_embedding_optimizer_none_split_device_kernel.cuh</a></li>
+<li>split_partial_rowwise_adam_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html#a278aedfb9f50b7f5486dbc97e87cab8e">gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh</a></li>
+<li>split_partial_rowwise_lamb_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html#a950ea306504584d6cc2050caf007295c">gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html#aab5a925ed0316c38c00fcce3b1adc50a">gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_with_counter_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#aa7708111891a0d2eeeda7881715427bb">gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh</a></li>
+<li>split_rowwise_adagrad_with_weight_decay_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#ae265a93446a3c4665e857bc8b2f7d8d7">gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh</a></li>
+<li>split_rowwise_weighted_adagrad_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html#a54b1af3a7b8db5fce48d934e47656c50">gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh</a></li>
+<li>split_sgd_table_update_kernel()&#160;:&#160;<a class="el" href="gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html#ab768e225fdd76b64ab5c9114ed3cc7cc">gen_embedding_optimizer_sgd_split_device_kernel.cuh</a></li>
+<li>ssd_cache_populate_actions_cuda()&#160;:&#160;<a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#a872136033719ff00d6b05e94e4b1cbab">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="ssd__split__table__batched__embeddings_8cpp.html#a872136033719ff00d6b05e94e4b1cbab">ssd_split_table_batched_embeddings.cpp</a></li>
+<li>STEP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>stochastic_rounding&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>stochastic_rounding_philox_args&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afff795d859ebc4c98b059d7e04dd8ebd">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>storage_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#a1aaf192027acf281933c714c085e6849">memory_utils.cu</a></li>
+<li>STRINGIFY&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a43e1cad902b6477bec893cb6430bd6c8">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a43e1cad902b6477bec893cb6430bd6c8">CMakeCXXCompilerId.cpp</a></li>
+<li>STRINGIFY_HELPER&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d">CMakeCXXCompilerId.cpp</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_t.html b/globals_t.html
new file mode 100644
index 000000000..c76c6c23e
--- /dev/null
+++ b/globals_t.html
@@ -0,0 +1,122 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>T&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a></li>
+<li>table_warp_id&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>Tensor&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a>, <a class="el" href="embedding__backward__split__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_cpu_template.cpp</a>, <a class="el" href="embedding__backward__split__cpu__approx__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_cpu_approx_template.cpp</a>, <a class="el" href="embedding__backward__dense__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_dense_host_cpu.cpp</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_dense_host.cpp</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#abc1167888f441327c12e300780ee568a">batch_index_select_dim0_host.cpp</a>, <a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#abc1167888f441327c12e300780ee568a">batch_index_select_dim0_cpu_host.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="input__combine__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">input_combine_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__split__nbit__kernel__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f">embedding_forward_quantized_split_nbit_kernel_template.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp</a>, <a class="el" href="input__combine_8cu.html#abc1167888f441327c12e300780ee568a">input_combine.cu</a>, <a class="el" href="histogram__binning__calibration__ops_8cu.html#abc1167888f441327c12e300780ee568a">histogram_binning_calibration_ops.cu</a>, <a class="el" href="embedding__inplace__update__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update_cpu.cpp</a>, <a class="el" href="embedding__inplace__update_8cu.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update.cu</a>, <a class="el" href="embedding__inplace__update_8h.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update.h</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#abc1167888f441327c12e300780ee568a">embedding_optimizer_split_template.cu</a>, <a class="el" href="embedding__optimizer__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_optimizer_split_host_template.cpp</a>, <a class="el" href="embedding__forward__split__meta__template_8cpp.html#abd5e6ae11c42b2e53f1da6fa1f4646ed">embedding_forward_split_meta_template.cpp</a>, <a class="el" href="embedding__forward__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_split_cpu.cpp</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_grad_template.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f">embedding_forward_quantized_split_nbit_host_template.cu</a>, <a class="el" href="embedding__forward__quantized__split__lookup_8cu.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_split_lookup.cu</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_host_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_host.cpp</a>, <a class="el" href="embedding__bounds__check__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check_host_cpu.cpp</a>, <a class="el" href="embedding__bounds__check__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check_host.cpp</a>, <a class="el" href="embedding__bounds__check_8cu.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check.cu</a>, <a class="el" href="embedding__backward__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_host_template.cpp</a>, <a class="el" href="embedding__backward__split__host__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_host_cpu_template.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="memory__utils__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils_ops_cpu.cpp</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="sparse__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_meta.cpp</a>, <a class="el" href="sparse__zipf_8cu.html#abc1167888f441327c12e300780ee568a">sparse_zipf.cu</a>, <a class="el" href="sparse__segment__sum__csr_8cu.html#abc1167888f441327c12e300780ee568a">sparse_segment_sum_csr.cu</a>, <a class="el" href="sparse__reorder__batched__ad_8cu.html#abc1167888f441327c12e300780ee568a">sparse_reorder_batched_ad.cu</a>, <a class="el" href="sparse__range_8cu.html#abc1167888f441327c12e300780ee568a">sparse_range.cu</a>, <a class="el" href="sparse__permute__embeddings_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_embeddings.cu</a>, <a class="el" href="sparse__permute__2d_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_2d.cu</a>, <a class="el" href="sparse__permute__1d_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_1d.cu</a>, <a class="el" href="sparse__permute102_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute102.cu</a>, <a class="el" href="sparse__pack__segments__forward_8cu.html#abc1167888f441327c12e300780ee568a">sparse_pack_segments_forward.cu</a>, <a class="el" href="sparse__pack__segments__backward_8cu.html#abc1167888f441327c12e300780ee568a">sparse_pack_segments_backward.cu</a>, <a class="el" href="split__embeddings__cache_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_cpu.cpp</a>, <a class="el" href="sparse__invert__permute_8cu.html#abc1167888f441327c12e300780ee568a">sparse_invert_permute.cu</a>, <a class="el" href="sparse__index__select_8cu.html#abc1167888f441327c12e300780ee568a">sparse_index_select.cu</a>, <a class="el" href="sparse__index__add_8cu.html#abc1167888f441327c12e300780ee568a">sparse_index_add.cu</a>, <a class="el" href="sparse__group__index_8cu.html#abc1167888f441327c12e300780ee568a">sparse_group_index.cu</a>, <a class="el" href="sparse__expand__into__jagged__permute_8cu.html#abc1167888f441327c12e300780ee568a">sparse_expand_into_jagged_permute.cu</a>, <a class="el" href="sparse__compute__frequency__sequence_8cu.html#abc1167888f441327c12e300780ee568a">sparse_compute_frequency_sequence.cu</a>, <a class="el" href="sparse__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a">sparse_bucketize_features.cu</a>, <a class="el" href="sparse__block__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a">sparse_block_bucketize_features.cu</a>, <a class="el" href="lru__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a">lru_cache_populate_byte.cpp</a>, <a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#abc1167888f441327c12e300780ee568a">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="transpose__embedding__input_8cu.html#abc1167888f441327c12e300780ee568a">transpose_embedding_input.cu</a>, <a class="el" href="split__embeddings__utils_8cpp.html#abc1167888f441327c12e300780ee568a">split_embeddings_utils.cpp</a>, <a class="el" href="radix__sort__pairs_8cu.html#abc1167888f441327c12e300780ee568a">radix_sort_pairs.cu</a>, <a class="el" href="get__infos__metadata_8cu.html#abc1167888f441327c12e300780ee568a">get_infos_metadata.cu</a>, <a class="el" href="generate__vbe__metadata_8cu.html#abc1167888f441327c12e300780ee568a">generate_vbe_metadata.cu</a>, <a class="el" href="reset__weight__momentum_8cu.html#abc1167888f441327c12e300780ee568a">reset_weight_momentum.cu</a>, <a class="el" href="lxu__cache_8cu.html#abc1167888f441327c12e300780ee568a">lxu_cache.cu</a>, <a class="el" href="lxu__cache_8cpp.html#abc1167888f441327c12e300780ee568a">lxu_cache.cpp</a>, <a class="el" href="lru__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_populate_byte.cu</a>, <a class="el" href="sparse__batched__unary__embeddings_8cu.html#abc1167888f441327c12e300780ee568a">sparse_batched_unary_embeddings.cu</a>, <a class="el" href="lru__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_populate.cu</a>, <a class="el" href="lru__cache__find_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_find.cu</a>, <a class="el" href="linearize__cache__indices_8cu.html#abc1167888f441327c12e300780ee568a">linearize_cache_indices.cu</a>, <a class="el" href="linearize__cache__indices_8cpp.html#abc1167888f441327c12e300780ee568a">linearize_cache_indices.cpp</a>, <a class="el" href="lfu__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate_byte.cu</a>, <a class="el" href="lfu__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate_byte.cpp</a>, <a class="el" href="lfu__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate.cu</a>, <a class="el" href="lfu__cache__find_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_find.cu</a>, <a class="el" href="split__embeddings__cache_2common_8h.html#abc1167888f441327c12e300780ee568a">common.h</a>, <a class="el" href="jagged__softmax__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_softmax_backward.cu</a>, <a class="el" href="memory__utils__ops_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils_ops.cpp</a>, <a class="el" href="memory__utils_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils.cpp</a>, <a class="el" href="memory__utils_2common_8h.html#abc1167888f441327c12e300780ee568a">common.h</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">layout_transform_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops_8cu.html#abc1167888f441327c12e300780ee568a">layout_transform_ops.cu</a>, <a class="el" href="keyed__jagged__index__select__dim1_8cu.html#abc1167888f441327c12e300780ee568a">keyed_jagged_index_select_dim1.cu</a>, <a class="el" href="jagged__unique__indices_8cu.html#abc1167888f441327c12e300780ee568a">jagged_unique_indices.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_to_padded_dense_forward.cu</a>, <a class="el" href="jagged__to__padded__dense__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_to_padded_dense_backward.cu</a>, <a class="el" href="jagged__softmax__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_softmax_forward.cu</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="jagged__jagged__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_jagged_bmm_forward.cu</a>, <a class="el" href="jagged__index__select__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_index_select_2d_forward.cu</a>, <a class="el" href="jagged__index__add__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_index_add_2d_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_elementwise_mul_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_bmm_forward.cu</a>, <a class="el" href="dense__to__jagged__forward_8cu.html#abc1167888f441327c12e300780ee568a">dense_to_jagged_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a">batched_dense_vec_jagged_2d_mul_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a">batched_dense_vec_jagged_2d_mul_backward.cu</a>, <a class="el" href="quantize__bfloat16_8cu.html#abc1167888f441327c12e300780ee568a">quantize_bfloat16.cu</a>, <a class="el" href="sparse__async__cumsum_8cu.html#abc1167888f441327c12e300780ee568a">sparse_async_cumsum.cu</a>, <a class="el" href="sparse__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="quantize__padded__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_padded_fp8_rowwise.cu</a>, <a class="el" href="quantize__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a">quantize_ops_meta.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">quantize_ops_cpu.cpp</a>, <a class="el" href="quantize__msfp_8cu.html#abc1167888f441327c12e300780ee568a">quantize_msfp.cu</a>, <a class="el" href="quantize__hfp8_8cu.html#abc1167888f441327c12e300780ee568a">quantize_hfp8.cu</a>, <a class="el" href="quantize__fused__nbit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fused_nbit_rowwise.cu</a>, <a class="el" href="quantize__fused__8bit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fused_8bit_rowwise.cu</a>, <a class="el" href="quantize__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fp8_rowwise.cu</a>, <a class="el" href="input__combine__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">input_combine_gpu.cpp</a>, <a class="el" href="quantize__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split_8cu.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split.cu</a>, <a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops_8cu.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops.cu</a>, <a class="el" href="permute__pooled__embedding__function_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_function.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">merge_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__none__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_none_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lars_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lamb_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adam_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a></li>
+<li>TENSOR_CONTIGUOUS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a333341c9590667c47753510e0da7b6e3">sparse_ops_utils.h</a></li>
+<li>TENSOR_CONTIGUOUS_AND_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a0378cd5f9e716f13079b83a9b9805691">sparse_ops_utils.h</a></li>
+<li>TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a350ade6aa989687c2ca8ced000e200ff">sparse_ops_utils.h</a></li>
+<li>TENSOR_EMPTY_OR_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a73ab1987fec37ac982ae1ed77be0e3ea">sparse_ops_utils.h</a></li>
+<li>TENSOR_EMPTY_OR_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aff83e4ada08cf70146ffc4ac2009aa9a">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_EQUALS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a485f848acf189619cb61a0ae7534eaa1">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_EXCEEDS&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#acfab048550cb0518bdb1ac267ef1e7ba">sparse_ops_utils.h</a></li>
+<li>TENSOR_NDIM_IS_GE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#abd9e69a82885e6e361275a0b08ebe565">sparse_ops_utils.h</a></li>
+<li>TENSOR_ON_CPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5d19d4051835acd2c6d83eb637341010">sparse_ops_utils.h</a></li>
+<li>TENSOR_ON_CUDA_GPU&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ac6089c2908cb1ae6367af5cf7bbea30d">sparse_ops_utils.h</a></li>
+<li>tensor_on_same_gpu_if_not_optional_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5a8411338d3eef3620c7f5be3803c7cd">sparse_ops_utils.h</a></li>
+<li>TENSOR_TYPE_MUST_BE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a003b5640cfa59fe8f5da9b1c9fcb8f26">sparse_ops_utils.h</a></li>
+<li>TENSORS_EMPTY_OR_ON_SAME_DEVICE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a3df91ae56fe10d1c002bed63e5b78d1b">sparse_ops_utils.h</a></li>
+<li>TENSORS_HAVE_SAME_NUMEL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a9be1e573e7d3e35f3db03210e2624e61">sparse_ops_utils.h</a></li>
+<li>TENSORS_HAVE_SAME_TYPE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a97687675a3398d3168fe8f07a1b4db87">sparse_ops_utils.h</a></li>
+<li>TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a4724e1d67266b6998b8fe4ef1ec743d9">sparse_ops_utils.h</a></li>
+<li>TENSORS_ON_SAME_DEVICE&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#aa6ef8e13e3280066cc5f4f0970d3e7a6">sparse_ops_utils.h</a></li>
+<li>TEST()&#160;:&#160;<a class="el" href="embedding__inplace__update__test_8cpp.html#a8eb96d7f557ba896e48fef81f259d7a5">embedding_inplace_update_test.cpp</a>, <a class="el" href="cpu__kernel__test_8cpp.html#aa2c7091971cf4fd4bcbb3215ebe612cf">cpu_kernel_test.cpp</a>, <a class="el" href="sparse__ops__utils__test_8cpp.html#a9011669ae997bae59aa8f141bd794f11">sparse_ops_utils_test.cpp</a>, <a class="el" href="tensor__assert__test_8cpp.html#af3ce575ab5810b31aae3455d53faacee">tensor_assert_test.cpp</a>, <a class="el" href="uvm__cache__miss__emulate__test_8cpp.html#aab721325808448b876b97faee4b751b9">uvm_cache_miss_emulate_test.cpp</a></li>
+<li>test_embedding_inplace_update()&#160;:&#160;<a class="el" href="embedding__inplace__update__test_8cpp.html#aac82e2990c8f2f7d3957f862975181a0">embedding_inplace_update_test.cpp</a></li>
+<li>TORCH_LIBRARY_FRAGMENT()&#160;:&#160;<a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="embedding__inplace__update__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_inplace_update_cpu.cpp</a>, <a class="el" href="split__embeddings__utils_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">split_embeddings_utils.cpp</a>, <a class="el" href="sparse__zipf_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_zipf.cu</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">sparse_ops_cpu.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">quantize_ops_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_split_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_split_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">merge_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">layout_transform_ops_cpu.cpp</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">jagged_tensor_ops_cpu.cpp</a>, <a class="el" href="input__combine__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">input_combine_cpu.cpp</a>, <a class="el" href="embedding__inplace__update__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_inplace_update_gpu.cpp</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="embedding__optimizer__split__host__template_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_optimizer_split_host_template.cpp</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_forward_quantized_host_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_forward_quantized_host.cpp</a>, <a class="el" href="embedding__bounds__check__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_bounds_check_host_cpu.cpp</a>, <a class="el" href="embedding__bounds__check__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_bounds_check_host.cpp</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">embedding_backward_dense_host.cpp</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">batch_index_select_dim0_host.cpp</a>, <a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">batch_index_select_dim0_cpu_host.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">gen_embedding_backward_sgd_split_cpu.cpp</a></li>
+<li>TORCH_LIBRARY_IMPL()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">split_embeddings_utils.cpp</a>, <a class="el" href="sparse__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">sparse_ops_meta.cpp</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#a8fd406590cd83f4dec4a63c7c1b9ce78">sparse_ops_gpu.cpp</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#aa138561d0eb99d73b2bf9586b84e7c46">jagged_tensor_ops_cpu.cpp</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">sparse_ops_cpu.cpp</a>, <a class="el" href="quantize__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">quantize_ops_meta.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">sparse_ops_cpu.cpp</a>, <a class="el" href="jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65">jagged_tensor_ops_autograd.cpp</a>, <a class="el" href="jagged__tensor__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">jagged_tensor_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">layout_transform_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78">layout_transform_ops_gpu.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58">quantize_ops_cpu.cpp</a>, <a class="el" href="jagged__tensor__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91">jagged_tensor_ops_meta.cpp</a></li>
+<li>torch_tensor_device_name()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a535403fdc5c523b45f0d56d657e17f7b">sparse_ops_utils.h</a></li>
+<li>torch_tensor_empty_or_on_cpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a6328f240dd58293d0349471dca28797e">sparse_ops_utils.h</a></li>
+<li>torch_tensor_empty_or_on_cuda_gpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#abb9778e9fb75a70593c27e53dca268cd">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_cpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ad971d56f6b82b6c62a2d6fed276b0463">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_cuda_gpu_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5568d44e6066339da1326798f9637b16">sparse_ops_utils.h</a></li>
+<li>torch_tensor_on_same_device_check()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5683dd4c2143c3c0ba0eeb80fd5223f0">sparse_ops_utils.h</a></li>
+<li>torch_tensor_undefined()&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#a5e916ca6a05a17d36e5341d929cc18e0">sparse_ops_utils.h</a></li>
+<li>total_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>total_L_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aa162b310777fc83fbde6ed5d0d35df4c">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>total_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>transpose_embedding_input()&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a508f832d3fec529868cbb1f9fa9defc8">split_embeddings_utils.cuh</a>, <a class="el" href="transpose__embedding__input_8cu.html#a569a769e3233130cce363d9ae151bd26">transpose_embedding_input.cu</a></li>
+<li>true()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af605abd85d3cc9e6dca40ea687104f6e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9c2ae1d1bfa19b2caadbc8e76c32697c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa41a6064cb3571ecd43c9da816216785">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3d5bd72dd7f6e6c6b0a50b2070e74f45">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#af0ccb06b8169682c123d1399ed8e1869">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a></li>
+<li>two_to_e()&#160;:&#160;<a class="el" href="verify__fp16__stochastic__benchmark_8cu.html#ab29b4915253bcafe11f5d95cfb227c0b">verify_fp16_stochastic_benchmark.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type.html b/globals_type.html
new file mode 100644
index 000000000..d674534d8
--- /dev/null
+++ b/globals_type.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>AdjacencyMatrix&#160;:&#160;<a class="el" href="topology__utils_8h.html#ada7183ec06808ddb73d8f1a65cd8f7ae">topology_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_c.html b/globals_type_c.html
new file mode 100644
index 000000000..0c2b95cf8
--- /dev/null
+++ b/globals_type_c.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cache_vec_t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_l.html b/globals_type_l.html
new file mode 100644
index 000000000..6c873659e
--- /dev/null
+++ b/globals_type_l.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>Links&#160;:&#160;<a class="el" href="topology__utils_8h.html#a434a916b92f4caf48f14d480c6aa845a">topology_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_n.html b/globals_type_n.html
new file mode 100644
index 000000000..e64891a45
--- /dev/null
+++ b/globals_type_n.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>Node&#160;:&#160;<a class="el" href="topology__utils_8h.html#a659b93920c81116289ee7ff5d45f48c9">topology_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_o.html b/globals_type_o.html
new file mode 100644
index 000000000..e4140b57a
--- /dev/null
+++ b/globals_type_o.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>output_vec_t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_t.html b/globals_type_t.html
new file mode 100644
index 000000000..f8a02c04a
--- /dev/null
+++ b/globals_type_t.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>Tensor&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp</a>, <a class="el" href="embedding__backward__split__grad__template_8cu.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_grad_template.cu</a>, <a class="el" href="embedding__backward__split__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_cpu_template.cpp</a>, <a class="el" href="embedding__backward__split__cpu__approx__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_cpu_approx_template.cpp</a>, <a class="el" href="embedding__backward__dense__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_dense_host_cpu.cpp</a>, <a class="el" href="embedding__backward__dense__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_dense_host.cpp</a>, <a class="el" href="batch__index__select__dim0__host_8cpp.html#abc1167888f441327c12e300780ee568a">batch_index_select_dim0_host.cpp</a>, <a class="el" href="batch__index__select__dim0__cpu__host_8cpp.html#abc1167888f441327c12e300780ee568a">batch_index_select_dim0_cpu_host.cpp</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_optimizer_rowwise_adagrad_split.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="embedding__backward__split__host__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_host_cpu_template.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="embedding__forward__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_split_cpu.cpp</a>, <a class="el" href="input__combine__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">input_combine_gpu.cpp</a>, <a class="el" href="input__combine__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">input_combine_cpu.cpp</a>, <a class="el" href="input__combine_8cu.html#abc1167888f441327c12e300780ee568a">input_combine.cu</a>, <a class="el" href="histogram__binning__calibration__ops_8cu.html#abc1167888f441327c12e300780ee568a">histogram_binning_calibration_ops.cu</a>, <a class="el" href="embedding__inplace__update__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update_cpu.cpp</a>, <a class="el" href="embedding__inplace__update_8cu.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update.cu</a>, <a class="el" href="embedding__inplace__update_8h.html#abc1167888f441327c12e300780ee568a">embedding_inplace_update.h</a>, <a class="el" href="embedding__optimizer__split__template_8cu.html#abc1167888f441327c12e300780ee568a">embedding_optimizer_split_template.cu</a>, <a class="el" href="embedding__optimizer__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_optimizer_split_host_template.cpp</a>, <a class="el" href="embedding__forward__split__meta__template_8cpp.html#abd5e6ae11c42b2e53f1da6fa1f4646ed">embedding_forward_split_meta_template.cpp</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_codegen_meta.cpp</a>, <a class="el" href="embedding__forward__quantized__split__nbit__kernel__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f">embedding_forward_quantized_split_nbit_kernel_template.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f">embedding_forward_quantized_split_nbit_host_template.cu</a>, <a class="el" href="embedding__forward__quantized__split__lookup_8cu.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_split_lookup.cu</a>, <a class="el" href="embedding__forward__quantized__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_host_cpu.cpp</a>, <a class="el" href="embedding__forward__quantized__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_forward_quantized_host.cpp</a>, <a class="el" href="embedding__bounds__check__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check_host_cpu.cpp</a>, <a class="el" href="embedding__bounds__check__host_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check_host.cpp</a>, <a class="el" href="embedding__bounds__check_8cu.html#abc1167888f441327c12e300780ee568a">embedding_bounds_check.cu</a>, <a class="el" href="embedding__backward__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a">embedding_backward_split_host_template.cpp</a>, <a class="el" href="gen__embedding__backward__split__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_sgd.cpp</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_codegen_meta.cpp</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_dense_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_weighted_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_lamb.cpp</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a">batched_dense_vec_jagged_2d_mul_backward.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="sparse__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_meta.cpp</a>, <a class="el" href="sparse__zipf_8cu.html#abc1167888f441327c12e300780ee568a">sparse_zipf.cu</a>, <a class="el" href="sparse__segment__sum__csr_8cu.html#abc1167888f441327c12e300780ee568a">sparse_segment_sum_csr.cu</a>, <a class="el" href="sparse__reorder__batched__ad_8cu.html#abc1167888f441327c12e300780ee568a">sparse_reorder_batched_ad.cu</a>, <a class="el" href="sparse__range_8cu.html#abc1167888f441327c12e300780ee568a">sparse_range.cu</a>, <a class="el" href="sparse__permute__embeddings_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_embeddings.cu</a>, <a class="el" href="sparse__permute__2d_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_2d.cu</a>, <a class="el" href="sparse__permute__1d_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute_1d.cu</a>, <a class="el" href="sparse__permute102_8cu.html#abc1167888f441327c12e300780ee568a">sparse_permute102.cu</a>, <a class="el" href="sparse__pack__segments__forward_8cu.html#abc1167888f441327c12e300780ee568a">sparse_pack_segments_forward.cu</a>, <a class="el" href="sparse__pack__segments__backward_8cu.html#abc1167888f441327c12e300780ee568a">sparse_pack_segments_backward.cu</a>, <a class="el" href="split__embeddings__cache_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="sparse__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_gpu.cpp</a>, <a class="el" href="sparse__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">sparse_ops_cpu.cpp</a>, <a class="el" href="sparse__invert__permute_8cu.html#abc1167888f441327c12e300780ee568a">sparse_invert_permute.cu</a>, <a class="el" href="sparse__index__select_8cu.html#abc1167888f441327c12e300780ee568a">sparse_index_select.cu</a>, <a class="el" href="sparse__index__add_8cu.html#abc1167888f441327c12e300780ee568a">sparse_index_add.cu</a>, <a class="el" href="sparse__group__index_8cu.html#abc1167888f441327c12e300780ee568a">sparse_group_index.cu</a>, <a class="el" href="sparse__expand__into__jagged__permute_8cu.html#abc1167888f441327c12e300780ee568a">sparse_expand_into_jagged_permute.cu</a>, <a class="el" href="sparse__compute__frequency__sequence_8cu.html#abc1167888f441327c12e300780ee568a">sparse_compute_frequency_sequence.cu</a>, <a class="el" href="sparse__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a">sparse_bucketize_features.cu</a>, <a class="el" href="sparse__block__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a">sparse_block_bucketize_features.cu</a>, <a class="el" href="lru__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a">lru_cache_populate_byte.cpp</a>, <a class="el" href="ssd__split__embeddings__cache__cuda_8cu.html#abc1167888f441327c12e300780ee568a">ssd_split_embeddings_cache_cuda.cu</a>, <a class="el" href="transpose__embedding__input_8cu.html#abc1167888f441327c12e300780ee568a">transpose_embedding_input.cu</a>, <a class="el" href="split__embeddings__utils_8cpp.html#abc1167888f441327c12e300780ee568a">split_embeddings_utils.cpp</a>, <a class="el" href="radix__sort__pairs_8cu.html#abc1167888f441327c12e300780ee568a">radix_sort_pairs.cu</a>, <a class="el" href="get__infos__metadata_8cu.html#abc1167888f441327c12e300780ee568a">get_infos_metadata.cu</a>, <a class="el" href="generate__vbe__metadata_8cu.html#abc1167888f441327c12e300780ee568a">generate_vbe_metadata.cu</a>, <a class="el" href="reset__weight__momentum_8cu.html#abc1167888f441327c12e300780ee568a">reset_weight_momentum.cu</a>, <a class="el" href="lxu__cache_8cu.html#abc1167888f441327c12e300780ee568a">lxu_cache.cu</a>, <a class="el" href="lxu__cache_8cpp.html#abc1167888f441327c12e300780ee568a">lxu_cache.cpp</a>, <a class="el" href="lru__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_populate_byte.cu</a>, <a class="el" href="sparse__batched__unary__embeddings_8cu.html#abc1167888f441327c12e300780ee568a">sparse_batched_unary_embeddings.cu</a>, <a class="el" href="lru__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_populate.cu</a>, <a class="el" href="lru__cache__find_8cu.html#abc1167888f441327c12e300780ee568a">lru_cache_find.cu</a>, <a class="el" href="linearize__cache__indices_8cu.html#abc1167888f441327c12e300780ee568a">linearize_cache_indices.cu</a>, <a class="el" href="linearize__cache__indices_8cpp.html#abc1167888f441327c12e300780ee568a">linearize_cache_indices.cpp</a>, <a class="el" href="lfu__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate_byte.cu</a>, <a class="el" href="lfu__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate_byte.cpp</a>, <a class="el" href="lfu__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_populate.cu</a>, <a class="el" href="lfu__cache__find_8cu.html#abc1167888f441327c12e300780ee568a">lfu_cache_find.cu</a>, <a class="el" href="split__embeddings__cache_2common_8h.html#abc1167888f441327c12e300780ee568a">common.h</a>, <a class="el" href="jagged__softmax__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_softmax_forward.cu</a>, <a class="el" href="memory__utils__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils_ops_cpu.cpp</a>, <a class="el" href="memory__utils__ops_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils_ops.cpp</a>, <a class="el" href="memory__utils_8cpp.html#abc1167888f441327c12e300780ee568a">memory_utils.cpp</a>, <a class="el" href="memory__utils_2common_8h.html#abc1167888f441327c12e300780ee568a">common.h</a>, <a class="el" href="layout__transform__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">layout_transform_ops_cpu.cpp</a>, <a class="el" href="layout__transform__ops_8cu.html#abc1167888f441327c12e300780ee568a">layout_transform_ops.cu</a>, <a class="el" href="keyed__jagged__index__select__dim1_8cu.html#abc1167888f441327c12e300780ee568a">keyed_jagged_index_select_dim1.cu</a>, <a class="el" href="jagged__unique__indices_8cu.html#abc1167888f441327c12e300780ee568a">jagged_unique_indices.cu</a>, <a class="el" href="jagged__to__padded__dense__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_to_padded_dense_forward.cu</a>, <a class="el" href="jagged__to__padded__dense__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_to_padded_dense_backward.cu</a>, <a class="el" href="merge__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">merge_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="jagged__softmax__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_softmax_backward.cu</a>, <a class="el" href="jagged__jagged__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_jagged_bmm_forward.cu</a>, <a class="el" href="jagged__index__select__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_index_select_2d_forward.cu</a>, <a class="el" href="jagged__index__add__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_index_add_2d_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_elementwise_mul_forward.cu</a>, <a class="el" href="jagged__dense__elementwise__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_elementwise_mul_backward.cu</a>, <a class="el" href="jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_dense_elementwise_add_jagged_output_forward.cu</a>, <a class="el" href="jagged__dense__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a">jagged_dense_bmm_forward.cu</a>, <a class="el" href="dense__to__jagged__forward_8cu.html#abc1167888f441327c12e300780ee568a">dense_to_jagged_forward.cu</a>, <a class="el" href="batched__dense__vec__jagged__2d__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a">batched_dense_vec_jagged_2d_mul_forward.cu</a>, <a class="el" href="quantize__bfloat16_8cu.html#abc1167888f441327c12e300780ee568a">quantize_bfloat16.cu</a>, <a class="el" href="sparse__async__cumsum_8cu.html#abc1167888f441327c12e300780ee568a">sparse_async_cumsum.cu</a>, <a class="el" href="sparse__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="quantize__padded__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_padded_fp8_rowwise.cu</a>, <a class="el" href="quantize__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a">quantize_ops_meta.cpp</a>, <a class="el" href="quantize__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">quantize_ops_cpu.cpp</a>, <a class="el" href="quantize__msfp_8cu.html#abc1167888f441327c12e300780ee568a">quantize_msfp.cu</a>, <a class="el" href="quantize__hfp8_8cu.html#abc1167888f441327c12e300780ee568a">quantize_hfp8.cu</a>, <a class="el" href="quantize__fused__nbit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fused_nbit_rowwise.cu</a>, <a class="el" href="quantize__fused__8bit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fused_8bit_rowwise.cu</a>, <a class="el" href="quantize__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a">quantize_fp8_rowwise.cu</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp</a>, <a class="el" href="quantize__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a">common.cuh</a>, <a class="el" href="permute__pooled__embedding__ops__split__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__split_8cu.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_split.cu</a>, <a class="el" href="permute__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops_cpu.cpp</a>, <a class="el" href="permute__pooled__embedding__ops_8cu.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_ops.cu</a>, <a class="el" href="permute__pooled__embedding__function_8cpp.html#abc1167888f441327c12e300780ee568a">permute_pooled_embedding_function.cpp</a>, <a class="el" href="merge__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a">merge_pooled_embedding_ops_gpu.cpp</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_none_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_forward_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_dense_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__split__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_sgd_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_partial_rowwise_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__none__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_none_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__none_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_none.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lars_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__lars__sgd_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lars_sgd.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lamb_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__lamb_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_lamb.cpp</a>, <a class="el" href="gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_indice_weights_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_sgd_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_approx_rowwise_adagrad.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adam_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__split__adam_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adam.cpp</a>, <a class="el" href="gen__embedding__backward__split__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_split_adagrad_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_batch_index_select_dim0_backward_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_type_v.html b/globals_type_v.html
new file mode 100644
index 000000000..5a83bc8ba
--- /dev/null
+++ b/globals_type_v.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all typedefs with links to the files they belong to:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>vec4_type&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_u.html b/globals_u.html
new file mode 100644
index 000000000..bb530e51e
--- /dev/null
+++ b/globals_u.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_u" name="index_u"></a>- u -</h3><ul>
+<li>uint32_t&#160;:&#160;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">gen_embedding_backward_split_grad.cu</a></li>
+<li>uint8_t&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a></li>
+<li>use_lxu_cache&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>uvm_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a45c4a9176e8f636d292288647fdeff77">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a653cbc621a5959ad8f3951a92154c616">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a02abd4b4f2f2745d8c6e8c696d70c025">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_v.html b/globals_v.html
new file mode 100644
index 000000000..02fa41dd1
--- /dev/null
+++ b/globals_v.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>val&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">bench_utils.cuh</a>, <a class="el" href="jagged__tensor__ops_2common_8cuh.html#a34f893695235597b772faca329b14963">common.cuh</a></li>
+<li>vec4_type&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a58da2e6e124bd5725ddbf144b36921f5">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>VEC_WIDTH&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#af57bf37dbd6a53004f468edeb5020860">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars.html b/globals_vars.html
new file mode 100644
index 000000000..e97f4beeb
--- /dev/null
+++ b/globals_vars.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>B&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>b&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_c.html b/globals_vars_c.html
new file mode 100644
index 000000000..d5a92039b
--- /dev/null
+++ b/globals_vars_c.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>cuda_device_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#a96208d96b413317e110ff94d64c71ef4">memory_utils.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_d.html b/globals_vars_d.html
new file mode 100644
index 000000000..5b4d6bdde
--- /dev/null
+++ b/globals_vars_d.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a952bac18af6443873547ada58c1e9f82">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>d_flush2&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a33347a1447f1a3618e698f9d5914c253">bench_utils.cuh</a></li>
+<li>D_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e9016830b84a13779c14bb73acce5b1">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>D_start&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>data&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">common.cuh</a></li>
+<li>DEFAULT_INFO_B_MASK&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a312a32dcc1f3a4980ed4c458b8bab67f">split_embeddings_utils.cuh</a></li>
+<li>DEFAULT_INFO_B_NUM_BITS&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#ac9d136da765bb4871acd477da0f2c254">split_embeddings_utils.cuh</a></li>
+<li>DEFAULT_INFO_NUM_BITS&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd">split_embeddings_utils.cuh</a></li>
+<li>dev_weights&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a7ac7f1200f9cc67310a434e6da2bc8ae">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>do_write&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#af01122d304bbe0308fe6c59bebe33730">bench_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_e.html b/globals_vars_e.html
new file mode 100644
index 000000000..8199d6435
--- /dev/null
+++ b/globals_vars_e.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>else&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0544c3fe466e421738dae463968b70ba">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>eps&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3af1a7fb1e7c77ec014031cd2e1d0837">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_f.html b/globals_vars_f.html
new file mode 100644
index 000000000..52c518760
--- /dev/null
+++ b/globals_vars_f.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>false&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">gen_embedding_forward_split_unweighted_kernel.cu</a></li>
+<li>fd_B&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a2d1eb541d5bdde0bf935a46f15efb9f4">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a488a7f217a1d4705fbcdce81e0a028b2">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a6b3d6f3af7d65ed111be48db11a4cc24">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a></li>
+<li>fd_num_warps_per_table&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>fixed_L_per_warp&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acac1f3391492ec3c4a8942ec48197027">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>float&#160;:&#160;<a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_dense_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_batch_index_select_dim0_backward_kernel_warp.cu</a>, <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_batch_index_select_dim0_backward_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_none_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_weighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_weighted_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu</a>, <a class="el" href="gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_g.html b/globals_vars_g.html
new file mode 100644
index 000000000..09cedcf0a
--- /dev/null
+++ b/globals_vars_g.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>global_warp_id&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>grad_dev_indices&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>grad_dev_weights&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_h.html b/globals_vars_h.html
new file mode 100644
index 000000000..2f11c16b2
--- /dev/null
+++ b/globals_vars_h.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>half4&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b">common.cuh</a></li>
+<li>half8&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6">common.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_i.html b/globals_vars_i.html
new file mode 100644
index 000000000..622b52b58
--- /dev/null
+++ b/globals_vars_i.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>index_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>indices&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac6808dbd8c1563373cd2bf230c07e283">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a983b46d1ccd1b8d7ee0f786801acdabf">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>info_arch&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a59647e99d304ed33b15cb284c27ed391">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a59647e99d304ed33b15cb284c27ed391">CMakeCXXCompilerId.cpp</a></li>
+<li>info_compiler&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a4b0efeb7a5d59313986b3a0390f050f6">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a4b0efeb7a5d59313986b3a0390f050f6">CMakeCXXCompilerId.cpp</a></li>
+<li>info_language_extensions_default&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a0f46a8a39e09d9b803c4766904fd7e99">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a0f46a8a39e09d9b803c4766904fd7e99">CMakeCXXCompilerId.cpp</a></li>
+<li>info_language_standard_default&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a4607cccf070750927b458473ca82c090">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a4607cccf070750927b458473ca82c090">CMakeCXXCompilerId.cpp</a></li>
+<li>info_platform&#160;:&#160;<a class="el" href="_c_make_c_compiler_id_8c.html#a2321403dee54ee23f0c2fa849c60f7d4">CMakeCCompilerId.c</a>, <a class="el" href="_c_make_c_x_x_compiler_id_8cpp.html#a2321403dee54ee23f0c2fa849c60f7d4">CMakeCXXCompilerId.cpp</a></li>
+<li>int64_t&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#af261ebff9d4ab236e8dd6bea30db7fb1">gen_embedding_backward_split_grad.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>is_small_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>is_zero_total_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_k.html b/globals_vars_k.html
new file mode 100644
index 000000000..da7672957
--- /dev/null
+++ b/globals_vars_k.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>kBackwardMaxThreads&#160;:&#160;<a class="el" href="embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7">embedding_backward_template_helpers.cuh</a></li>
+<li>kCacheLocationMissing&#160;:&#160;<a class="el" href="embedding__forward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321">embedding_forward_template_helpers.cuh</a>, <a class="el" href="embedding__backward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321">embedding_backward_template_helpers.cuh</a></li>
+<li>kForwardMaxThreads&#160;:&#160;<a class="el" href="embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459">embedding_forward_template_helpers.cuh</a></li>
+<li>kStackArrayMaxDims&#160;:&#160;<a class="el" href="sparse__ops__utils_8h.html#ab6183b92f9eac6ca49e3055d79dfc83d">sparse_ops_utils.h</a></li>
+<li>kWarpSize&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_l.html b/globals_vars_l.html
new file mode 100644
index 000000000..d1a21c294
--- /dev/null
+++ b/globals_vars_l.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>learning_rate&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a205f082b0bb0cee9301dc4e5d0521b5c">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>load_d&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8204f76fc5db4c5c7ac336538fa9da1f">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a04f448d8b284fc09ac62abe6b241bfb0">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a3c502d4dedd432c8940a937269071ddc">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a></li>
+<li>lxu_cache_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1d665aaf5a0d98bca13be6c158653005">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2581c8ea9d11ed091efe32b3ec6d2920">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#aac2986832e167da4c333ea92ea3deff2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>LXU_PARAMS_CNT&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#ae2a8bf21f0c677246d8d102686641b65">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_m.html b/globals_vars_m.html
new file mode 100644
index 000000000..20302340a
--- /dev/null
+++ b/globals_vars_m.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>mask&#160;:&#160;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a7d162c8b2172ea2cb7a10852acacc635">common.cuh</a></li>
+<li>MAX_B&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a8fe8da855c3ca31f1825ef6779aa2458">split_embeddings_utils.cuh</a></li>
+<li>max_D&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>max_D_cache&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>MAX_ENTRIES_PER_BLOCK&#160;:&#160;<a class="el" href="metric__ops_8cu.html#a9c50cd9bc9f8be967692db87d6fdf57f">metric_ops.cu</a></li>
+<li>max_norm&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5dad34a0e8f59dfa6c15365b5f987ba6">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>MAX_T&#160;:&#160;<a class="el" href="split__embeddings__utils_8cuh.html#a83944439cec525d70fcf8281a639760d">split_embeddings_utils.cuh</a></li>
+<li>mean_pooling&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>momentum1_dev&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af9476d367260e52c6a3bd31824072c06">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_offsets&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afd2978ce7ef7477233a8bda0aacde4e2">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_placements&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a10602f96a8b9264528834b6a1763ffb1">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>momentum1_uvm&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3f5ed4cb8fcb526d7476413516fd546f">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_n.html b/globals_vars_n.html
new file mode 100644
index 000000000..b7a4dd97c
--- /dev/null
+++ b/globals_vars_n.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>NUM_OFFSETS_PER_WARP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>NUM_PARAMS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>NUM_THREADS_PER_BLOCK&#160;:&#160;<a class="el" href="metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517">metric_ops.cu</a></li>
+<li>NUM_WARPS&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>num_warps_for_small_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>num_warps_per_row&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_o.html b/globals_vars_o.html
new file mode 100644
index 000000000..01fc02705
--- /dev/null
+++ b/globals_vars_o.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#aab1af2e6ba28faa781f71e91f2347d43">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6ed0a81091088c3c07a10b7fd8e63358">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a></li>
+<li>output&#160;:&#160;<a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#af6e6ad15bb4078d9c64b33a85e9618ec">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa742bdb164d113128d3e9b155f95acfe">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a511b9e94b01de29a6671f16533eaf6dd">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>output_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a48df3803c4f164ff153d5348c6f8f10f">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_p.html b/globals_vars_p.html
new file mode 100644
index 000000000..408c03b30
--- /dev/null
+++ b/globals_vars_p.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>params_offset&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>permute_output_dim_0_1&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a5bd1879ce15d52289f55eb10253c8e8e">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>ptr_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#afbe2be78a3ee81b2e3c6821cec74e116">memory_utils.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_r.html b/globals_vars_r.html
new file mode 100644
index 000000000..f2dd6d00a
--- /dev/null
+++ b/globals_vars_r.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>row_start&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_s.html b/globals_vars_s.html
new file mode 100644
index 000000000..dbcdc9a09
--- /dev/null
+++ b/globals_vars_s.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>SAVED_PARAMS_CNT&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>smem&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>sorted_lxu_cache_locations&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a219575ab5da90e4fa43bbb6df6e7831b">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>split_embedding&#160;:&#160;<a class="el" href="embedding__backward__split__host__template_8cpp.html#a099fcb1910d50cb2f7bcfd36966c67f3">embedding_backward_split_host_template.cpp</a></li>
+<li>split_embedding_&#160;:&#160;<a class="el" href="embedding__optimizer__split__host__template_8cpp.html#a043dbacfe97bbbca3dfe0675f0073939">embedding_optimizer_split_host_template.cpp</a></li>
+<li>STEP&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>stochastic_rounding&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>stochastic_rounding_philox_args&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afff795d859ebc4c98b059d7e04dd8ebd">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>storage_&#160;:&#160;<a class="el" href="memory__utils_8cu.html#a1aaf192027acf281933c714c085e6849">memory_utils.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_t.html b/globals_vars_t.html
new file mode 100644
index 000000000..5c585eb80
--- /dev/null
+++ b/globals_vars_t.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>T&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a></li>
+<li>t&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>table_warp_id&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>total_L&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>total_L_offsets&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aa162b310777fc83fbde6ed5d0d35df4c">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>total_load_D&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>true&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">gen_embedding_forward_split_weighted_vbe_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_u.html b/globals_vars_u.html
new file mode 100644
index 000000000..5dda1df57
--- /dev/null
+++ b/globals_vars_u.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_u" name="index_u"></a>- u -</h3><ul>
+<li>uint32_t&#160;:&#160;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">gen_embedding_backward_split_grad.cu</a></li>
+<li>uint8_t&#160;:&#160;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_batch_index_select_dim0_forward_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_vbe_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_weighted_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_nobag_kernel.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_dense_unweighted_kernel.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_batch_index_select_dim0_forward_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">gen_embedding_forward_split_unweighted_nobag_kernel.cu</a></li>
+<li>use_lxu_cache&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>uvm_weights&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a45c4a9176e8f636d292288647fdeff77">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a653cbc621a5959ad8f3951a92154c616">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a02abd4b4f2f2745d8c6e8c696d70c025">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_v.html b/globals_vars_v.html
new file mode 100644
index 000000000..a4775b17d
--- /dev/null
+++ b/globals_vars_v.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>val&#160;:&#160;<a class="el" href="bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87">bench_utils.cuh</a>, <a class="el" href="jagged__tensor__ops_2common_8cuh.html#a34f893695235597b772faca329b14963">common.cuh</a></li>
+<li>VEC_WIDTH&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#af57bf37dbd6a53004f468edeb5020860">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_vars_w.html b/globals_vars_w.html
new file mode 100644
index 000000000..d1ea7f0ce
--- /dev/null
+++ b/globals_vars_w.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all variables with links to the files they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>weight_decay&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a55c90ffc934511c5239912ee28729c08">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>weight_decay_mode&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a29382d4f16f27e176ace0d7a6c14bedd">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>weights_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a68c2c016f330babab668514e78cb3bf1">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9af84081fe94d1658365400ffcb263bc">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a7d1fc13d818566d961fdf0fd44612dbb">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a8952c1fa3b8169bec4e9aa6f07ce2271">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>weights_placements&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a9a841e0386a10dcd6aa2fce96a7880b8">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af6ffac73b54018941c14b57180e69abd">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a9987071f2ac942c5d6c47d628b971738">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_w.html b/globals_w.html
new file mode 100644
index 000000000..5e12d9299
--- /dev/null
+++ b/globals_w.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>weight_decay&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a55c90ffc934511c5239912ee28729c08">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>weight_decay_mode&#160;:&#160;<a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a29382d4f16f27e176ace0d7a6c14bedd">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>WEIGHT_OFFSET&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5">embedding_forward_split_kernel_v2_template.cu</a></li>
+<li>weights_offsets&#160;:&#160;<a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a68c2c016f330babab668514e78cb3bf1">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9af84081fe94d1658365400ffcb263bc">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a7d1fc13d818566d961fdf0fd44612dbb">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a8952c1fa3b8169bec4e9aa6f07ce2271">gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">gen_batch_index_select_dim0_forward_kernel_small.cu</a></li>
+<li>weights_placements&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">gen_embedding_forward_split_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a9a841e0386a10dcd6aa2fce96a7880b8">gen_embedding_forward_split_unweighted_nobag_kernel_small.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af6ffac73b54018941c14b57180e69abd">gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108">gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a9987071f2ac942c5d6c47d628b971738">gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu</a></li>
+<li>write_loop_small_Ls()&#160;:&#160;<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde">gen_embedding_forward_split_unweighted_v2_kernel.cu</a>, <a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde">gen_embedding_forward_split_weighted_v2_kernel.cu</a>, <a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html#a784fce39007138a17294839676673bde">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_x.html b/globals_x.html
new file mode 100644
index 000000000..af41e6a05
--- /dev/null
+++ b/globals_x.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_x" name="index_x"></a>- x -</h3><ul>
+<li>X&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">embedding_forward_quantized_split_nbit_host_template.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/globals_y.html b/globals_y.html
new file mode 100644
index 000000000..3b6801d9f
--- /dev/null
+++ b/globals_y.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: File Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all file members with links to the files they belong to:</div>
+
+<h3><a id="index_y" name="index_y"></a>- y -</h3><ul>
+<li>Y&#160;:&#160;<a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu</a>, <a class="el" href="gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95">gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu</a>, <a class="el" href="embedding__forward__quantized__split__nbit__host__template_8cu.html#acec51faeb0681c58de451cb9d59abe95">embedding_forward_quantized_split_nbit_host_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/group__cumem-utils.html b/group__cumem-utils.html
index 2e6706e60..286dfa9ae 100644
--- a/group__cumem-utils.html
+++ b/group__cumem-utils.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>fbgemm_gpu: CUDA Memorty Operators</title>
+<title>fbgemm_gpu: CUDA Memory Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -71,51 +73,93 @@
 <div class="header">
   <div class="summary">
 <a href="#func-members">Functions</a>  </div>
-  <div class="headertitle"><div class="title">CUDA Memorty Operators</div></div>
+  <div class="headertitle"><div class="title">CUDA Memory Operators</div></div>
 </div><!--header-->
 <div class="contents">
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:gab708b23762a11187eb6a32a36f0e34a3" id="r_gab708b23762a11187eb6a32a36f0e34a3"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">new_managed_tensor</a> (const Tensor &amp;self, const std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="memitem:gab708b23762a11187eb6a32a36f0e34a3" id="r_gab708b23762a11187eb6a32a36f0e34a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gab708b23762a11187eb6a32a36f0e34a3">new_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
 <tr class="separator:gab708b23762a11187eb6a32a36f0e34a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gad5e0d2307667c3db5e73f0c0eec15df5" id="r_gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">new_vanilla_managed_tensor</a> (const Tensor &amp;self, const std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="memitem:ga5351c6ec3de203476cf09df330455d91" id="r_ga5351c6ec3de203476cf09df330455d91"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga5351c6ec3de203476cf09df330455d91">new_managed_tensor_meta</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5351c6ec3de203476cf09df330455d91"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5663643a8ac5de83063d0ff51bb9af17" id="r_ga5663643a8ac5de83063d0ff51bb9af17"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga5663643a8ac5de83063d0ff51bb9af17">new_host_mapped_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5663643a8ac5de83063d0ff51bb9af17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6f8847537ea9ed13fc7e2e378bc79b1f" id="r_ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga6f8847537ea9ed13fc7e2e378bc79b1f">new_unified_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_host_mapped</a>)</td></tr>
+<tr class="separator:ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad5e0d2307667c3db5e73f0c0eec15df5" id="r_gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gad5e0d2307667c3db5e73f0c0eec15df5">new_vanilla_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
 <tr class="separator:gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga6e119375c731f9e33f4cd81a1f2205e2" id="r_ga6e119375c731f9e33f4cd81a1f2205e2"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga6e119375c731f9e33f4cd81a1f2205e2">uvm_storage</a> (const Tensor &amp;t)</td></tr>
-<tr class="separator:ga6e119375c731f9e33f4cd81a1f2205e2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga0b9f28b07d3796a732b1fb73b8e10e7e" id="r_ga0b9f28b07d3796a732b1fb73b8e10e7e"><td class="memItemLeft" align="right" valign="top">bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga0b9f28b07d3796a732b1fb73b8e10e7e">is_uvm_tensor</a> (const Tensor &amp;t)</td></tr>
-<tr class="separator:ga0b9f28b07d3796a732b1fb73b8e10e7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga6d4781dfa6a77b895140836f6e6d523b" id="r_ga6d4781dfa6a77b895140836f6e6d523b"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga6d4781dfa6a77b895140836f6e6d523b">uvm_to_cpu</a> (const Tensor &amp;t)</td></tr>
-<tr class="separator:ga6d4781dfa6a77b895140836f6e6d523b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gaad51bd52cc92230c0e91c5d4f61511c2" id="r_gaad51bd52cc92230c0e91c5d4f61511c2"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaad51bd52cc92230c0e91c5d4f61511c2">uvm_to_device</a> (const Tensor &amp;t, const Tensor &amp;prototype)</td></tr>
-<tr class="separator:gaad51bd52cc92230c0e91c5d4f61511c2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga8a7d93d58bcc9700c3054639973e25b6" id="r_ga8a7d93d58bcc9700c3054639973e25b6"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga8a7d93d58bcc9700c3054639973e25b6">uvm_cuda_mem_advise</a> (const Tensor &amp;t, int64_t cuda_memory_advise)</td></tr>
-<tr class="separator:ga8a7d93d58bcc9700c3054639973e25b6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga07e32d271464bafc50cc100cb52ddb85" id="r_ga07e32d271464bafc50cc100cb52ddb85"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga07e32d271464bafc50cc100cb52ddb85">uvm_cuda_mem_prefetch_async</a> (const Tensor &amp;t, c10::optional&lt; Tensor &gt; device_t)</td></tr>
-<tr class="separator:ga07e32d271464bafc50cc100cb52ddb85"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga723bf5f1a0ca1c7a77e76054d3332a6e" id="r_ga723bf5f1a0ca1c7a77e76054d3332a6e"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga723bf5f1a0ca1c7a77e76054d3332a6e">uvm_mem_advice_dont_fork</a> (const Tensor &amp;t)</td></tr>
-<tr class="separator:ga723bf5f1a0ca1c7a77e76054d3332a6e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga98ea4dd0481cc3839cf21e55e003e7af" id="r_ga98ea4dd0481cc3839cf21e55e003e7af"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga98ea4dd0481cc3839cf21e55e003e7af">uvm_to_cpu_clone</a> (const Tensor &amp;t)</td></tr>
-<tr class="separator:ga98ea4dd0481cc3839cf21e55e003e7af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga05bf2c435c434904ca454c6992861cb6" id="r_ga05bf2c435c434904ca454c6992861cb6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga05bf2c435c434904ca454c6992861cb6">uvm_storage</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga05bf2c435c434904ca454c6992861cb6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gacba28ed334d071e79c1ead1792391e9d" id="r_gacba28ed334d071e79c1ead1792391e9d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gacba28ed334d071e79c1ead1792391e9d">is_uvm_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gacba28ed334d071e79c1ead1792391e9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab5a3dab831988b1ce368ccc545b75b48" id="r_gab5a3dab831988b1ce368ccc545b75b48"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gab5a3dab831988b1ce368ccc545b75b48">uvm_to_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gab5a3dab831988b1ce368ccc545b75b48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaebfedcf8e6017a6d4f6fb16b52c4c04e" id="r_gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gaebfedcf8e6017a6d4f6fb16b52c4c04e">uvm_to_device</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">prototype</a>)</td></tr>
+<tr class="separator:gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gae8c724e90d31245756fc4b0d975f9370" id="r_gae8c724e90d31245756fc4b0d975f9370"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gae8c724e90d31245756fc4b0d975f9370">uvm_cuda_mem_advise</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cuda_memory_advise</a>)</td></tr>
+<tr class="separator:gae8c724e90d31245756fc4b0d975f9370"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaf060db44e71e3419df6e596614ef2081" id="r_gaf060db44e71e3419df6e596614ef2081"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gaf060db44e71e3419df6e596614ef2081">uvm_cuda_mem_prefetch_async</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">device_t</a>)</td></tr>
+<tr class="separator:gaf060db44e71e3419df6e596614ef2081"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga01301ad686f7570c21e81c122d2c7af8" id="r_ga01301ad686f7570c21e81c122d2c7af8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga01301ad686f7570c21e81c122d2c7af8">uvm_mem_advice_dont_fork</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga01301ad686f7570c21e81c122d2c7af8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga161495e682d9eac3701dca87469930db" id="r_ga161495e682d9eac3701dca87469930db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga161495e682d9eac3701dca87469930db">uvm_to_cpu_clone</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga161495e682d9eac3701dca87469930db"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <h2 class="groupheader">Function Documentation</h2>
-<a id="ga0b9f28b07d3796a732b1fb73b8e10e7e" name="ga0b9f28b07d3796a732b1fb73b8e10e7e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga0b9f28b07d3796a732b1fb73b8e10e7e">&#9670;&#160;</a></span>is_uvm_tensor()</h2>
+<a id="gacba28ed334d071e79c1ead1792391e9d" name="gacba28ed334d071e79c1ead1792391e9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gacba28ed334d071e79c1ead1792391e9d">&#9670;&#160;</a></span>is_uvm_tensor()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">bool is_uvm_tensor </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> is_uvm_tensor </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Check if a tensor is allocated with UVM <em>AND</em> is not on a CPU </p>
+<p>Check if a tensor is allocated with UVM, BUT is not a CPU tensor.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd><code>true</code> if the tensor is a non-CPU tensor allocated with UVM, otherwise <code>false</code> </dd></dl>
+
+</div>
+</div>
+<a id="ga5663643a8ac5de83063d0ff51bb9af17" name="ga5663643a8ac5de83063d0ff51bb9af17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5663643a8ac5de83063d0ff51bb9af17">&#9670;&#160;</a></span>new_host_mapped_tensor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_host_mapped_tensor </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Allocate the <code>at::Tensor</code> with host-mapped memory.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">sizes</td><td>The target tensor dimensions</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor backed by host-mapped memory </dd></dl>
 
 </div>
 </div>
@@ -126,224 +170,319 @@ <h2 class="memtitle"><span class="permalink"><a href="#gab708b23762a11187eb6a32a
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor new_managed_tensor </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_managed_tensor </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>self</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const std::vector&lt; std::int64_t &gt; &amp;&#160;</td>
-          <td class="paramname"><em>sizes</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em></span>&#160;)</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+<p>Allocate an <code>at::Tensor</code> with unified managed memory (UVM). Then set its preferred storage location to CPU (host memory) and establish mappings on the CUDA device to the host memory.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">sizes</td><td>The target tensor dimensions</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor backed by UVM </dd></dl>
+
+</div>
+</div>
+<a id="ga5351c6ec3de203476cf09df330455d91" name="ga5351c6ec3de203476cf09df330455d91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5351c6ec3de203476cf09df330455d91">&#9670;&#160;</a></span>new_managed_tensor_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_managed_tensor_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Allocate the ATen Tensor with unified managed memory (UVM) and set both UVM storage preference to CPU and access from self.device </p>
+<p>Placeholder operator for the <code>Meta</code> dispatch key.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">sizes</td><td>The target tensor dimensions</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new empty tensor </dd></dl>
 
 </div>
 </div>
-<a id="gad5e0d2307667c3db5e73f0c0eec15df5" name="gad5e0d2307667c3db5e73f0c0eec15df5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#gad5e0d2307667c3db5e73f0c0eec15df5">&#9670;&#160;</a></span>new_vanilla_managed_tensor()</h2>
+<a id="ga6f8847537ea9ed13fc7e2e378bc79b1f" name="ga6f8847537ea9ed13fc7e2e378bc79b1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga6f8847537ea9ed13fc7e2e378bc79b1f">&#9670;&#160;</a></span>new_unified_tensor()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor new_vanilla_managed_tensor </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_unified_tensor </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>self</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const std::vector&lt; std::int64_t &gt; &amp;&#160;</td>
-          <td class="paramname"><em>sizes</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_host_mapped</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Allocate the ATen Tensor with unified managed memory (UVM) </p>
+<p>Allocate the <code>at::Tensor</code> with either unified managed memory (UVM) or host-mapped memory.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">sizes</td><td>The target tensor dimensions </td></tr>
+    <tr><td class="paramname">is_host_mapped</td><td>Whether to allocate UVM or host-mapped memory</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor backed by UVM or host-mapped memory, depending on the value of <code>is_host_mapped</code> </dd></dl>
 
 </div>
 </div>
-<a id="ga8a7d93d58bcc9700c3054639973e25b6" name="ga8a7d93d58bcc9700c3054639973e25b6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga8a7d93d58bcc9700c3054639973e25b6">&#9670;&#160;</a></span>uvm_cuda_mem_advise()</h2>
+<a id="gad5e0d2307667c3db5e73f0c0eec15df5" name="gad5e0d2307667c3db5e73f0c0eec15df5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad5e0d2307667c3db5e73f0c0eec15df5">&#9670;&#160;</a></span>new_vanilla_managed_tensor()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void uvm_cuda_mem_advise </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_vanilla_managed_tensor </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>cuda_memory_advise</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Call cudaMemAdvise on UVM Storage. The hint enum is generated in Python (fbgemm,uvm) using data returned from C++ op. </p>
+<p>Allocate an <code>at::Tensor</code> with unified managed memory (UVM), but allow for its preferred storage location to be automatically managed.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">sizes</td><td>The target tensor dimensions</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor backed by UVM </dd></dl>
 
 </div>
 </div>
-<a id="ga07e32d271464bafc50cc100cb52ddb85" name="ga07e32d271464bafc50cc100cb52ddb85"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga07e32d271464bafc50cc100cb52ddb85">&#9670;&#160;</a></span>uvm_cuda_mem_prefetch_async()</h2>
+<a id="gae8c724e90d31245756fc4b0d975f9370" name="gae8c724e90d31245756fc4b0d975f9370"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gae8c724e90d31245756fc4b0d975f9370">&#9670;&#160;</a></span>uvm_cuda_mem_advise()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void uvm_cuda_mem_prefetch_async </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> uvm_cuda_mem_advise </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>device_t</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>cuda_memory_advise</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Call <code>cudaMemAdvise()</code> on a UVM tensor's storage. The <code>cudaMemoryAdvise</code> enum is available on the Python side in the <code>fbgemm_gpu.uvm</code> namespace; see the documentation over there for valid values.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">cuda_memory_advise</td><td>The <code>cudaMemoryAdvise</code> enum value, as integer</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section see"><dt>See also</dt><dd>See <a href="https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemAdvise">here</a> For more information on the <code>cudaMemoryAdvise</code> enum. </dd></dl>
+
+</div>
+</div>
+<a id="gaf060db44e71e3419df6e596614ef2081" name="gaf060db44e71e3419df6e596614ef2081"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaf060db44e71e3419df6e596614ef2081">&#9670;&#160;</a></span>uvm_cuda_mem_prefetch_async()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> uvm_cuda_mem_prefetch_async </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>device_t</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Call cudaMemPrefetchAsync on UVM Storage </p>
+<p>Call <code>cudaMemPrefetchAsync()</code> on a UVM tensor's storage to prefetch memory to a destination device.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">device_t</td><td><b>[OPTIONAL]</b> The tensor whose device will be the prefetch destination</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section see"><dt>See also</dt><dd>See <a href="https://nvidia.github.io/cuda-python/module/cudart.html#cuda.cudart.cudaMemPrefetchAsync">here</a> For more information on <code>cudaMemPrefetchAsync()</code>. </dd></dl>
 
 </div>
 </div>
-<a id="ga723bf5f1a0ca1c7a77e76054d3332a6e" name="ga723bf5f1a0ca1c7a77e76054d3332a6e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga723bf5f1a0ca1c7a77e76054d3332a6e">&#9670;&#160;</a></span>uvm_mem_advice_dont_fork()</h2>
+<a id="ga01301ad686f7570c21e81c122d2c7af8" name="ga01301ad686f7570c21e81c122d2c7af8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga01301ad686f7570c21e81c122d2c7af8">&#9670;&#160;</a></span>uvm_mem_advice_dont_fork()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void uvm_mem_advice_dont_fork </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> uvm_mem_advice_dont_fork </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Call madvise(..MADV_DONTFORK) on the UVM storage. This is a workaround for an issue where the UVM kernel driver unmaps UVM storage pages from the page table on fork - causing slowdown on the next access from a CPU. </p>
+<p>Call <code>madvise(...MADV_DONTFORK)</code> on a UVM tensor's storage. This is a workaround for an issue where the UVM kernel driver un-maps UVM storage pages from the page table on fork, causing slowdown on the next access from a CPU.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section see"><dt>See also</dt><dd>See <a href="https://man7.org/linux/man-pages/man2/madvise.2.html">here</a> For more information on <code>madvise()</code>. </dd></dl>
 
 </div>
 </div>
-<a id="ga6e119375c731f9e33f4cd81a1f2205e2" name="ga6e119375c731f9e33f4cd81a1f2205e2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga6e119375c731f9e33f4cd81a1f2205e2">&#9670;&#160;</a></span>uvm_storage()</h2>
+<a id="ga05bf2c435c434904ca454c6992861cb6" name="ga05bf2c435c434904ca454c6992861cb6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga05bf2c435c434904ca454c6992861cb6">&#9670;&#160;</a></span>uvm_storage()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">bool uvm_storage </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> uvm_storage </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Check if a tensor is allocated with UVM </p>
+<p>Check if a tensor is allocated with UVM (either CPU or GPU tensor).</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd><code>true</code> if the tensor is allocated with UVM, otherwise <code>false</code> </dd></dl>
 
 </div>
 </div>
-<a id="ga6d4781dfa6a77b895140836f6e6d523b" name="ga6d4781dfa6a77b895140836f6e6d523b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga6d4781dfa6a77b895140836f6e6d523b">&#9670;&#160;</a></span>uvm_to_cpu()</h2>
+<a id="gab5a3dab831988b1ce368ccc545b75b48" name="gab5a3dab831988b1ce368ccc545b75b48"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gab5a3dab831988b1ce368ccc545b75b48">&#9670;&#160;</a></span>uvm_to_cpu()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor uvm_to_cpu </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> uvm_to_cpu </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Convert a UVM tensor to a CPU tensor </p>
+<p>Convert a UVM tensor to a CPU tensor.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor that is effectively the input moved from UVM to CPU </dd></dl>
 
 </div>
 </div>
-<a id="ga98ea4dd0481cc3839cf21e55e003e7af" name="ga98ea4dd0481cc3839cf21e55e003e7af"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga98ea4dd0481cc3839cf21e55e003e7af">&#9670;&#160;</a></span>uvm_to_cpu_clone()</h2>
+<a id="ga161495e682d9eac3701dca87469930db" name="ga161495e682d9eac3701dca87469930db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga161495e682d9eac3701dca87469930db">&#9670;&#160;</a></span>uvm_to_cpu_clone()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor uvm_to_cpu_clone </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> uvm_to_cpu_clone </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Copy a contigious uvm Tensor (uvm_storage(t) is true) into a CPU Tensor The copy uses single threaded memcpy </p>
+<p>Copy a UVM tensor's contiguous storage (uvm_storage(t) is true) into a new CPU Tensor. The copy operation uses single-threaded <code>memcpy()</code>.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new CPU tensor containing the data copied from the UVM tensor </dd></dl>
 
 </div>
 </div>
-<a id="gaad51bd52cc92230c0e91c5d4f61511c2" name="gaad51bd52cc92230c0e91c5d4f61511c2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#gaad51bd52cc92230c0e91c5d4f61511c2">&#9670;&#160;</a></span>uvm_to_device()</h2>
+<a id="gaebfedcf8e6017a6d4f6fb16b52c4c04e" name="gaebfedcf8e6017a6d4f6fb16b52c4c04e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaebfedcf8e6017a6d4f6fb16b52c4c04e">&#9670;&#160;</a></span>uvm_to_device()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor uvm_to_device </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> uvm_to_device </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>t</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>prototype</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>prototype</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Create a UVM tensor on the same device as prototype sharing the same uvm storage as t </p>
+<p>Create a new UVM tensor that shares the same device and UVM storage with <code>prototype</code>.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">self</td><td>The input tensor </td></tr>
+    <tr><td class="paramname">prototype</td><td>The target tensor whose device and and UVM storage will be shared with the new tensor</td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>A new tensor that shares the same device and UVM storage with <code>prototype</code>. </dd></dl>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__embedding-cpu.html b/group__embedding-cpu.html
index 6dc9d7128..ba3234733 100644
--- a/group__embedding-cpu.html
+++ b/group__embedding-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Embedding CPU Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,10 +75,386 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="gac115303550aa9af7c170baef63bcdb00" name="gac115303550aa9af7c170baef63bcdb00"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gac115303550aa9af7c170baef63bcdb00">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_lookup_function_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_lookup_function_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaf5c83f0c03200546398764261403749d" name="gaf5c83f0c03200546398764261403749d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaf5c83f0c03200546398764261403749d">&#9670;&#160;</a></span>int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga50d9da3c5bc1fe8b9cabfbda212c2ea5" name="ga50d9da3c5bc1fe8b9cabfbda212c2ea5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga50d9da3c5bc1fe8b9cabfbda212c2ea5">&#9670;&#160;</a></span>pruned_array_lookup_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> pruned_array_lookup_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>index_remappings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>index_remappings_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga5b5d3d94a399c14899a4410d1f5e7dad" name="ga5b5d3d94a399c14899a4410d1f5e7dad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5b5d3d94a399c14899a4410d1f5e7dad">&#9670;&#160;</a></span>pruned_hashmap_insert_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> pruned_hashmap_insert_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dense_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga2c64467f516cc9caf72cb94e9913b211" name="ga2c64467f516cc9caf72cb94e9913b211"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga2c64467f516cc9caf72cb94e9913b211">&#9670;&#160;</a></span>pruned_hashmap_lookup_unweighted_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> pruned_hashmap_lookup_unweighted_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__embedding-cuda.html b/group__embedding-cuda.html
index 3e1350ec3..38046379c 100644
--- a/group__embedding-cuda.html
+++ b/group__embedding-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Embedding CUDA Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,11 +79,188 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:gabbe880100f1036a979f3a8d8755447d0" id="r_gabbe880100f1036a979f3a8d8755447d0"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0">int_nbit_split_embedding_uvm_caching_codegen_lookup_function</a> (Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t pooling_mode, c10::optional&lt; Tensor &gt; indice_weights, int64_t output_dtype, c10::optional&lt; Tensor &gt; lxu_cache_weights, c10::optional&lt; Tensor &gt; lxu_cache_locations, c10::optional&lt; int64_t &gt; row_alignment, c10::optional&lt; int64_t &gt; max_float8_D, c10::optional&lt; int64_t &gt; fp8_exponent_bits, c10::optional&lt; int64_t &gt; fp8_exponent_bias, c10::optional&lt; Tensor &gt; cache_hash_size_cumsum, c10::optional&lt; int64_t &gt; total_cache_hash_size, c10::optional&lt; Tensor &gt; cache_index_table_map, c10::optional&lt; Tensor &gt; lxu_cache_state, c10::optional&lt; Tensor &gt; lxu_state)</td></tr>
+<tr class="memitem:gabbe880100f1036a979f3a8d8755447d0" id="r_gabbe880100f1036a979f3a8d8755447d0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gabbe880100f1036a979f3a8d8755447d0">int_nbit_split_embedding_uvm_caching_codegen_lookup_function</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_D</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_int2_D</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_int4_D</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_int8_D</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_float16_D</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_float32_D</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pooling_mode</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indice_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_dtype</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_float8_D</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fp8_exponent_bits</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fp8_exponent_bias</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_state</a>)</td></tr>
 <tr class="separator:gabbe880100f1036a979f3a8d8755447d0"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <h2 class="groupheader">Function Documentation</h2>
+<a id="gad1c20ea2ace30c269811890919ebdb6e" name="gad1c20ea2ace30c269811890919ebdb6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad1c20ea2ace30c269811890919ebdb6e">&#9670;&#160;</a></span>bounds_check_indices_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> bounds_check_indices_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>rows_per_table</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bounds_check_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>warning</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_ofsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga0749f1c6540189dd47b32a56858f82fb" name="ga0749f1c6540189dd47b32a56858f82fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga0749f1c6540189dd47b32a56858f82fb">&#9670;&#160;</a></span>int_nbit_split_embedding_codegen_lookup_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_codegen_lookup_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="gabbe880100f1036a979f3a8d8755447d0" name="gabbe880100f1036a979f3a8d8755447d0"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#gabbe880100f1036a979f3a8d8755447d0">&#9670;&#160;</a></span>int_nbit_split_embedding_uvm_caching_codegen_lookup_function()</h2>
 
@@ -89,188 +268,3633 @@ <h2 class="memtitle"><span class="permalink"><a href="#gabbe880100f1036a979f3a8d
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor int_nbit_split_embedding_uvm_caching_codegen_lookup_function </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> int_nbit_split_embedding_uvm_caching_codegen_lookup_function </td>
           <td>(</td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>dev_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>uvm_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>weights_placements</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int2_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int4_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>weights_tys</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_int8_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float16_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_float32_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_int2_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_int4_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_int8_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_float16_D</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_float32_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>indices</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Tensor&#160;</td>
-          <td class="paramname"><em>offsets</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>pooling_mode</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>indice_weights</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>max_float8_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>output_dtype</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bits</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>fp8_exponent_bias</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_cache_locations</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; int64_t &gt;&#160;</td>
-          <td class="paramname"><em>row_alignment</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; int64_t &gt;&#160;</td>
-          <td class="paramname"><em>max_float8_D</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; int64_t &gt;&#160;</td>
-          <td class="paramname"><em>fp8_exponent_bits</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; int64_t &gt;&#160;</td>
-          <td class="paramname"><em>fp8_exponent_bias</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Simlar to int_nbit_split_embedding_codegen_lookup_function, but it does UVM_CACHING lookup. </p>
+
+</div>
+</div>
+<a id="gaea1d3ae26d1e893ccf08f8b55b3d6eff" name="gaea1d3ae26d1e893ccf08f8b55b3d6eff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaea1d3ae26d1e893ccf08f8b55b3d6eff">&#9670;&#160;</a></span>pruned_array_lookup_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> pruned_array_lookup_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; int64_t &gt;&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>index_remappings</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>index_remappings_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga1adb0a98306b7d6f839b5fbcaaa44ec7" name="ga1adb0a98306b7d6f839b5fbcaaa44ec7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga1adb0a98306b7d6f839b5fbcaaa44ec7">&#9670;&#160;</a></span>pruned_hashmap_lookup_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> pruned_hashmap_lookup_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_state</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_table_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaa0988eef90f8662e8886912ed3784c1d" name="gaa0988eef90f8662e8886912ed3784c1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaa0988eef90f8662e8886912ed3784c1d">&#9670;&#160;</a></span>split_embedding_codegen_lookup_adagrad_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_adagrad_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga639ddbb31e9d565bfcfa4766b14c9ef6" name="ga639ddbb31e9d565bfcfa4766b14c9ef6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga639ddbb31e9d565bfcfa4766b14c9ef6">&#9670;&#160;</a></span>split_embedding_codegen_lookup_adam_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_adam_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gac847393d811e7b22ace39ff91eb91e27" name="gac847393d811e7b22ace39ff91eb91e27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gac847393d811e7b22ace39ff91eb91e27">&#9670;&#160;</a></span>split_embedding_codegen_lookup_approx_rowwise_adagrad_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_approx_rowwise_adagrad_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gabf7587752fb66934350cec59cd7adda9" name="gabf7587752fb66934350cec59cd7adda9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gabf7587752fb66934350cec59cd7adda9">&#9670;&#160;</a></span>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga0a7191adb6807417bfaab85ccb6fac50" name="ga0a7191adb6807417bfaab85ccb6fac50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga0a7191adb6807417bfaab85ccb6fac50">&#9670;&#160;</a></span>split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gabcff81381942478b57805e5deb7725fb" name="gabcff81381942478b57805e5deb7725fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gabcff81381942478b57805e5deb7725fb">&#9670;&#160;</a></span>split_embedding_codegen_lookup_approx_sgd_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_approx_sgd_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga1c377dd2500d38974bbfe0e69243e084" name="ga1c377dd2500d38974bbfe0e69243e084"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga1c377dd2500d38974bbfe0e69243e084">&#9670;&#160;</a></span>split_embedding_codegen_lookup_lamb_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_lamb_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3" name="ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3">&#9670;&#160;</a></span>split_embedding_codegen_lookup_lars_sgd_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_lars_sgd_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eta</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>momentum</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga855a30b389de5a61097f44cff795b6c3" name="ga855a30b389de5a61097f44cff795b6c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga855a30b389de5a61097f44cff795b6c3">&#9670;&#160;</a></span>split_embedding_codegen_lookup_none_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_none_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga06feb6c425fba7c460dc0da550d4e4e6" name="ga06feb6c425fba7c460dc0da550d4e4e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga06feb6c425fba7c460dc0da550d4e4e6">&#9670;&#160;</a></span>split_embedding_codegen_lookup_partial_rowwise_adam_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_partial_rowwise_adam_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga37b9129c928c9cb39459198f36f11c8d" name="ga37b9129c928c9cb39459198f36f11c8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga37b9129c928c9cb39459198f36f11c8d">&#9670;&#160;</a></span>split_embedding_codegen_lookup_partial_rowwise_lamb_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_partial_rowwise_lamb_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum2_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta1</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>beta2</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gacc3d997b675b747985dd37193cac4edd" name="gacc3d997b675b747985dd37193cac4edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gacc3d997b675b747985dd37193cac4edd">&#9670;&#160;</a></span>split_embedding_codegen_lookup_rowwise_adagrad_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_rowwise_adagrad_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_norm</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga917cf0c2c4487425408808529ed05e68" name="ga917cf0c2c4487425408808529ed05e68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga917cf0c2c4487425408808529ed05e68">&#9670;&#160;</a></span>split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>prev_iter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>row_counter_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>counter_halflife</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_iter</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>adjustment_ub</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>grad_sum_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_counter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>tail_id_threshold</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>is_tail_id_thresh_ratio</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>regularization_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_norm_coefficient</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga2e19021f546871ef6f1e57fca7cf5e13" name="ga2e19021f546871ef6f1e57fca7cf5e13"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga2e19021f546871ef6f1e57fca7cf5e13">&#9670;&#160;</a></span>split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay_mode</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga54a40e0e64a528731d45bca998727a1c" name="ga54a40e0e64a528731d45bca998727a1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga54a40e0e64a528731d45bca998727a1c">&#9670;&#160;</a></span>split_embedding_codegen_lookup_rowwise_weighted_adagrad_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_rowwise_weighted_adagrad_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>eps</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>weight_decay</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>iter</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga66c2eb0df8e5dab40f0d862ebe43bd34" name="ga66c2eb0df8e5dab40f0d862ebe43bd34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga66c2eb0df8e5dab40f0d862ebe43bd34">&#9670;&#160;</a></span>split_embedding_codegen_lookup_sgd_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> split_embedding_codegen_lookup_sgd_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>placeholder_autograd_tensor</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>feature_requires_grad</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gradient_clipping</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_gradient</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>learning_rate</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;(SparseType::FP32)</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_output_offsets_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_B_offsets_rank_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>vbe_output_size</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_experimental</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_uniq_cache_locations_bwd</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_homogeneous_placements</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Simlar to int_nbit_split_embedding_codegen_lookup_function, but it does UVM_CACHING lookup. </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__input-combine.html b/group__input-combine.html
index 7e4fb4d79..106252d61 100644
--- a/group__input-combine.html
+++ b/group__input-combine.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Combine Input Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,10 +75,78 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga9ab60fbe75053c2f31f7d3f16dfa476f" name="ga9ab60fbe75053c2f31f7d3f16dfa476f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga9ab60fbe75053c2f31f7d3f16dfa476f">&#9670;&#160;</a></span>padding_fused_tbe_input_combine_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; padding_fused_tbe_input_combine_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>include_last_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga4f8f3f8b825c9d7639c1e45e8dc8b689" name="ga4f8f3f8b825c9d7639c1e45e8dc8b689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga4f8f3f8b825c9d7639c1e45e8dc8b689">&#9670;&#160;</a></span>tbe_input_combine_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; tbe_input_combine_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>include_last_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__jagged-tensor-ops-cpu.html b/group__jagged-tensor-ops-cpu.html
index c13fa834e..47118c6e8 100644
--- a/group__jagged-tensor-ops-cpu.html
+++ b/group__jagged-tensor-ops-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Jagged Tensor Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,42 +79,145 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:gaa797caaa08c70857433ae987d9cf30d7" id="r_gaa797caaa08c70857433ae987d9cf30d7"><td class="memItemLeft" align="right" valign="top">Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">jagged_dense_elementwise_add</a> (const Tensor &amp;x_values, const std::vector&lt; Tensor &gt; &amp;x_offsets, const Tensor &amp;y)</td></tr>
+<tr class="memitem:gaa797caaa08c70857433ae987d9cf30d7" id="r_gaa797caaa08c70857433ae987d9cf30d7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gaa797caaa08c70857433ae987d9cf30d7">jagged_dense_elementwise_add</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
 <tr class="separator:gaa797caaa08c70857433ae987d9cf30d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga1290f40c3ba39837dd009c3006353d7c" id="r_ga1290f40c3ba39837dd009c3006353d7c"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; Tensor, std::vector&lt; Tensor &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c">jagged_dense_elementwise_add_jagged_output</a> (const Tensor &amp;x_values, const std::vector&lt; Tensor &gt; &amp;x_offsets, const Tensor &amp;y)</td></tr>
+<tr class="memitem:ga1290f40c3ba39837dd009c3006353d7c" id="r_ga1290f40c3ba39837dd009c3006353d7c"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga1290f40c3ba39837dd009c3006353d7c">jagged_dense_elementwise_add_jagged_output</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
 <tr class="separator:ga1290f40c3ba39837dd009c3006353d7c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<p>The following are Jagged Tensor CPU Operators</p>
+<p>The following are Jagged Tensor CPU Operators</p>
 <p>The following are Jagged Tensor CPU Operators </p>
 <h2 class="groupheader">Function Documentation</h2>
-<a id="gaa797caaa08c70857433ae987d9cf30d7" name="gaa797caaa08c70857433ae987d9cf30d7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#gaa797caaa08c70857433ae987d9cf30d7">&#9670;&#160;</a></span>jagged_dense_elementwise_add()</h2>
+<a id="ga67afdd148d57be07278c9cb088b5ff4b" name="ga67afdd148d57be07278c9cb088b5ff4b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga67afdd148d57be07278c9cb088b5ff4b">&#9670;&#160;</a></span>batched_dense_vec_jagged_2d_mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_dense_vec_jagged_2d_mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gae25fa8a028fc083f06e445e1d2ebb208" name="gae25fa8a028fc083f06e445e1d2ebb208"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gae25fa8a028fc083f06e445e1d2ebb208">&#9670;&#160;</a></span>dense_to_jagged()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; dense_to_jagged </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dense</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; at::SymInt &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga93b5edf03f38d8eaf9a0f1ece0bc1af7" name="ga93b5edf03f38d8eaf9a0f1ece0bc1af7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga93b5edf03f38d8eaf9a0f1ece0bc1af7">&#9670;&#160;</a></span>jagged_1d_to_dense()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_1d_to_dense </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::SymInt</td>          <td class="paramname"><span class="paramname"><em>max_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaaa301b81a22a3d823ba5e65828093113" name="gaaa301b81a22a3d823ba5e65828093113"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaaa301b81a22a3d823ba5e65828093113">&#9670;&#160;</a></span>jagged_2d_to_dense()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">Tensor jagged_dense_elementwise_add </td>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_2d_to_dense </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>x_values</em>, </td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const std::vector&lt; Tensor &gt; &amp;&#160;</td>
-          <td class="paramname"><em>x_offsets</em>, </td>
+          <td class="paramtype">c10::SymInt</td>          <td class="paramname"><span class="paramname"><em>max_sequence_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaa797caaa08c70857433ae987d9cf30d7" name="gaa797caaa08c70857433ae987d9cf30d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaa797caaa08c70857433ae987d9cf30d7">&#9670;&#160;</a></span>jagged_dense_elementwise_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_elementwise_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>y</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -127,38 +232,87 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga1290f40c3ba39837dd009c3
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::tuple&lt; Tensor, std::vector&lt; Tensor &gt; &gt; jagged_dense_elementwise_add_jagged_output </td>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_elementwise_add_jagged_output </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Output = x + y where x is jagged, y is dense, and output is jagged </p>
+
+</div>
+</div>
+<a id="ga5521ad46f5bab0d77c8bb036742f455d" name="ga5521ad46f5bab0d77c8bb036742f455d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5521ad46f5bab0d77c8bb036742f455d">&#9670;&#160;</a></span>jagged_dense_elementwise_mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_elementwise_mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga6d19e2c055144e4fe59b06999be34670" name="ga6d19e2c055144e4fe59b06999be34670"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga6d19e2c055144e4fe59b06999be34670">&#9670;&#160;</a></span>jagged_to_padded_dense()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_to_padded_dense </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>x_values</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const std::vector&lt; Tensor &gt; &amp;&#160;</td>
-          <td class="paramname"><em>x_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>y</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::SymIntArrayRef</td>          <td class="paramname"><span class="paramname"><em>max_lengths</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Output = x + y where x is jagged, y is dense, and output is jagged </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__jagged-tensor-ops-cuda.html b/group__jagged-tensor-ops-cuda.html
index 73fb339e5..2d1dc75b6 100644
--- a/group__jagged-tensor-ops-cuda.html
+++ b/group__jagged-tensor-ops-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Jagged Tensor CUDA Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,7 +79,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:gad34ac20d2c9be5a6489c8e8befff7938" id="r_gad34ac20d2c9be5a6489c8e8befff7938"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; Tensor, std::vector&lt; Tensor &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">jagged_dense_elementwise_add_jagged_output_cuda</a> (const Tensor &amp;x_values, const std::vector&lt; Tensor &gt; &amp;x_offsets, const Tensor &amp;y)</td></tr>
+<tr class="memitem:gad34ac20d2c9be5a6489c8e8befff7938" id="r_gad34ac20d2c9be5a6489c8e8befff7938"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gad34ac20d2c9be5a6489c8e8befff7938">jagged_dense_elementwise_add_jagged_output_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
 <tr class="separator:gad34ac20d2c9be5a6489c8e8befff7938"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
@@ -90,38 +92,61 @@ <h2 class="memtitle"><span class="permalink"><a href="#gad34ac20d2c9be5a6489c8e8
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::tuple&lt; Tensor, std::vector&lt; Tensor &gt; &gt; jagged_dense_elementwise_add_jagged_output_cuda </td>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_elementwise_add_jagged_output_cuda </td>
           <td>(</td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>x_values</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const std::vector&lt; Tensor &gt; &amp;&#160;</td>
-          <td class="paramname"><em>x_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const Tensor &amp;&#160;</td>
-          <td class="paramname"><em>y</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+<p>output = x + y where x is jagged, y is dense, and output is jagged </p>
+
+</div>
+</div>
+<a id="gaffad7e38f6faf5f8365784fbf82a26f5" name="gaffad7e38f6faf5f8365784fbf82a26f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaffad7e38f6faf5f8365784fbf82a26f5">&#9670;&#160;</a></span>jagged_to_padded_dense_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname">at::Tensor jagged_to_padded_dense_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::SymIntArrayRef</td>          <td class="paramname"><span class="paramname"><em>max_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>output = x + y where x is jagged, y is dense, and output is jagged </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__layout-transform-cpu.html b/group__layout-transform-cpu.html
index 475054cf3..5a86a4e7e 100644
--- a/group__layout-transform-cpu.html
+++ b/group__layout-transform-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Layout Transformation CPU Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,10 +75,32 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga8edc2bee42577b7eeb76613b52d62311" name="ga8edc2bee42577b7eeb76613b52d62311"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga8edc2bee42577b7eeb76613b52d62311">&#9670;&#160;</a></span>recat_embedding_grad_output_mixed_D_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> recat_embedding_grad_output_mixed_D_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dim_sum_per_rank</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__layout-transform-cuda.html b/group__layout-transform-cuda.html
index 0745132f1..f28df6a8f 100644
--- a/group__layout-transform-cuda.html
+++ b/group__layout-transform-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Layout Transformation CUDA Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,10 +75,79 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga09438223bb710af7f55fb6d25fc9d99f" name="ga09438223bb710af7f55fb6d25fc9d99f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga09438223bb710af7f55fb6d25fc9d99f">&#9670;&#160;</a></span>recat_embedding_grad_output_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> recat_embedding_grad_output_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>num_features_per_rank</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gad5cabc0ba0ee6dfd8a8de4e5825c62e9" name="gad5cabc0ba0ee6dfd8a8de4e5825c62e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad5cabc0ba0ee6dfd8a8de4e5825c62e9">&#9670;&#160;</a></span>recat_embedding_grad_output_mixed_D_batch_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> recat_embedding_grad_output_mixed_D_batch_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dim_sum_per_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cumsum_dim_sum_per_rank</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaf753887183c2603a01978463228a0343" name="gaf753887183c2603a01978463228a0343"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaf753887183c2603a01978463228a0343">&#9670;&#160;</a></span>recat_embedding_grad_output_mixed_D_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> recat_embedding_grad_output_mixed_D_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>dim_sum_per_rank</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__merge-pooled-emb.html b/group__merge-pooled-emb.html
index ea22c207f..2ad44c108 100644
--- a/group__merge-pooled-emb.html
+++ b/group__merge-pooled-emb.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Merge Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -73,10 +75,32 @@
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga3933c7465129b58edd60ffcc1999c223" name="ga3933c7465129b58edd60ffcc1999c223"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga3933c7465129b58edd60ffcc1999c223">&#9670;&#160;</a></span>all_to_one_device()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; all_to_one_device </td>
+          <td>(</td>
+          <td class="paramtype">std::vector&lt; at::Tensor &gt;</td>          <td class="paramname"><span class="paramname"><em>inputTensors</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Device</td>          <td class="paramname"><span class="paramname"><em>target_device</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__permute-pooled-embs-cpu.html b/group__permute-pooled-embs-cpu.html
index 1955ee7ae..51ace5e26 100644
--- a/group__permute-pooled-embs-cpu.html
+++ b/group__permute-pooled-embs-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>fbgemm_gpu: CPU Permutation Operators</title>
+<title>fbgemm_gpu: Permute Pooled Embeddings Operators (CPU)</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -69,14 +71,200 @@
 </div>
 
 <div class="header">
-  <div class="headertitle"><div class="title">CPU Permutation Operators</div></div>
+  <div class="headertitle"><div class="title">Permute Pooled Embeddings Operators (CPU)</div></div>
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ga3fd0766d863a18ea5cce4bfdef6a0349" name="ga3fd0766d863a18ea5cce4bfdef6a0349"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga3fd0766d863a18ea5cce4bfdef6a0349">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_pooled_embs_auto_grad </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gac050c22198470709b89b4d5b160006b0" name="gac050c22198470709b89b4d5b160006b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gac050c22198470709b89b4d5b160006b0">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_pooled_embs_auto_grad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga62bb71eb3e7a980ce5efded317717189" name="ga62bb71eb3e7a980ce5efded317717189"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga62bb71eb3e7a980ce5efded317717189">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad_split_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_auto_grad_split_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga39797562608b1226fc1632f815f7d8a2" name="ga39797562608b1226fc1632f815f7d8a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga39797562608b1226fc1632f815f7d8a2">&#9670;&#160;</a></span>permute_pooled_embs_cpu_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_cpu_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>allow_duplicates</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga21fd23f8f0de62159529356ebf7eb1f1" name="ga21fd23f8f0de62159529356ebf7eb1f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga21fd23f8f0de62159529356ebf7eb1f1">&#9670;&#160;</a></span>permute_pooled_embs_split_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_split_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__permute-pooled-embs-gpu.html b/group__permute-pooled-embs-gpu.html
index 341b6c148..16a7b5513 100644
--- a/group__permute-pooled-embs-gpu.html
+++ b/group__permute-pooled-embs-gpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>fbgemm_gpu: CUDA Permutation Operators</title>
+<title>fbgemm_gpu: Permute Pooled Embeddings Operators (CUDA)</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -69,14 +71,123 @@
 </div>
 
 <div class="header">
-  <div class="headertitle"><div class="title">CUDA Permutation Operators</div></div>
+  <div class="headertitle"><div class="title">Permute Pooled Embeddings Operators (CUDA)</div></div>
 </div><!--header-->
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="gad0d8a6f85fc81bc54e4c20e60fe6eb11" name="gad0d8a6f85fc81bc54e4c20e60fe6eb11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad0d8a6f85fc81bc54e4c20e60fe6eb11">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_auto_grad_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gab5673b48b58896e4954cc8fc7c90c4d8" name="gab5673b48b58896e4954cc8fc7c90c4d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gab5673b48b58896e4954cc8fc7c90c4d8">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad_split_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_auto_grad_split_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga342967f8cc4e25c7655d1987536cdc6b" name="ga342967f8cc4e25c7655d1987536cdc6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga342967f8cc4e25c7655d1987536cdc6b">&#9670;&#160;</a></span>permute_pooled_embs_split_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_split_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__quantize-data-cpu.html b/group__quantize-data-cpu.html
index acdf74192..b6ba0c1bd 100644
--- a/group__quantize-data-cpu.html
+++ b/group__quantize-data-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Quantize Data CPU Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -74,10 +76,361 @@
 <div class="contents">
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <p>The following are CPU Operators </p>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="gad38a9310258acccab8a017c1616034d0" name="gad38a9310258acccab8a017c1616034d0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad38a9310258acccab8a017c1616034d0">&#9670;&#160;</a></span>_float_to_fused8bitrowwise_cpu_out()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; _float_to_fused8bitrowwise_cpu_out </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gabeb6675833a5b14e0a0d01385770a771" name="gabeb6675833a5b14e0a0d01385770a771"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gabeb6675833a5b14e0a0d01385770a771">&#9670;&#160;</a></span>_fused8bitrowwise_to_float_cpu_out()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; _fused8bitrowwise_to_float_cpu_out </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga06b7d2bf3fadaa9869555a64a6752ef7" name="ga06b7d2bf3fadaa9869555a64a6752ef7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga06b7d2bf3fadaa9869555a64a6752ef7">&#9670;&#160;</a></span>float_or_half_to_fused8bitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> float_or_half_to_fused8bitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gad540dd7f8ad7601b3d9591114e4ef718" name="gad540dd7f8ad7601b3d9591114e4ef718"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad540dd7f8ad7601b3d9591114e4ef718">&#9670;&#160;</a></span>float_to_FP8rowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> float_to_FP8rowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gacf598456fd7aced63b96e8a725f4c418" name="gacf598456fd7aced63b96e8a725f4c418"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gacf598456fd7aced63b96e8a725f4c418">&#9670;&#160;</a></span>float_to_fused8bitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> float_to_fused8bitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gad14f49d191c7960681206b7103d781c4" name="gad14f49d191c7960681206b7103d781c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad14f49d191c7960681206b7103d781c4">&#9670;&#160;</a></span>FloatToFP8Quantized_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> FloatToFP8Quantized_ref </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>nrows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>ncols</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga4c49e527f364bfa224ed34f4fe9f13e7" name="ga4c49e527f364bfa224ed34f4fe9f13e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga4c49e527f364bfa224ed34f4fe9f13e7">&#9670;&#160;</a></span>FP8QuantizedToFloat_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> FP8QuantizedToFloat_ref </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>nrows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>ncols</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga1d3b2f7c37e8755516ff8a4c504017e1" name="ga1d3b2f7c37e8755516ff8a4c504017e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga1d3b2f7c37e8755516ff8a4c504017e1">&#9670;&#160;</a></span>FP8rowwise_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> FP8rowwise_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gab86a824fed15fab1c318359d069a5180" name="gab86a824fed15fab1c318359d069a5180"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gab86a824fed15fab1c318359d069a5180">&#9670;&#160;</a></span>fused8bitrowwise_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fused8bitrowwise_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gad219617d0aa308f97fad8dfc6af20213" name="gad219617d0aa308f97fad8dfc6af20213"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad219617d0aa308f97fad8dfc6af20213">&#9670;&#160;</a></span>fused8bitrowwise_to_float_or_half_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fused8bitrowwise_to_float_or_half_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga9284d774f5d4087da98453e96e64d00a" name="ga9284d774f5d4087da98453e96e64d00a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga9284d774f5d4087da98453e96e64d00a">&#9670;&#160;</a></span>fused8bitrowwise_to_half_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fused8bitrowwise_to_half_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga61c494baf4e410652ed897534d14aa29" name="ga61c494baf4e410652ed897534d14aa29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga61c494baf4e410652ed897534d14aa29">&#9670;&#160;</a></span>fusednbitrowwise_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fusednbitrowwise_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga5bd66d69876ef2493a6ebb4346c31bb9" name="ga5bd66d69876ef2493a6ebb4346c31bb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5bd66d69876ef2493a6ebb4346c31bb9">&#9670;&#160;</a></span>fusednbitrowwise_to_float_or_half_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fusednbitrowwise_to_float_or_half_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga1c32bf52a02928dbc573b4ac67065788" name="ga1c32bf52a02928dbc573b4ac67065788"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga1c32bf52a02928dbc573b4ac67065788">&#9670;&#160;</a></span>fusednbitrowwise_to_half_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> fusednbitrowwise_to_half_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaa9daf4f3dc64238a5de8f82bbae656cf" name="gaa9daf4f3dc64238a5de8f82bbae656cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaa9daf4f3dc64238a5de8f82bbae656cf">&#9670;&#160;</a></span>half_to_fused8bitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> half_to_fused8bitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__quantize-ops-cuda.html b/group__quantize-ops-cuda.html
index e9e2f38c9..c382fca4e 100644
--- a/group__quantize-ops-cuda.html
+++ b/group__quantize-ops-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>fbgemm_gpu: Quantization Operators for CUDA</title>
+<title>fbgemm_gpu: Quantization Operators (CUDA)</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -71,27 +73,26 @@
 <div class="header">
   <div class="summary">
 <a href="#func-members">Functions</a>  </div>
-  <div class="headertitle"><div class="title">Quantization Operators for CUDA</div></div>
+  <div class="headertitle"><div class="title">Quantization Operators (CUDA)</div></div>
 </div><!--header-->
 <div class="contents">
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ga2f1cc4b6dc6f708324855f94d558cfc1" id="r_ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">_float_to_bfloat16_gpu</a> (const at::Tensor &amp;input)</td></tr>
+<tr class="memitem:ga2f1cc4b6dc6f708324855f94d558cfc1" id="r_ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga2f1cc4b6dc6f708324855f94d558cfc1">_float_to_bfloat16_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
 <tr class="separator:ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga2076a59fd190690f67c1eddb79b6acc4" id="r_ga2076a59fd190690f67c1eddb79b6acc4"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">_bfloat16_to_float_gpu</a> (const at::Tensor &amp;input)</td></tr>
+<tr class="memitem:ga2076a59fd190690f67c1eddb79b6acc4" id="r_ga2076a59fd190690f67c1eddb79b6acc4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga2076a59fd190690f67c1eddb79b6acc4">_bfloat16_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
 <tr class="separator:ga2076a59fd190690f67c1eddb79b6acc4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gab2837424e3774fe34ba255658554a75a" id="r_gab2837424e3774fe34ba255658554a75a"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">_float_to_hfp8_gpu</a> (const at::Tensor &amp;input, const int64_t ebits, const int64_t exponent_bias, const double max_pos)</td></tr>
+<tr class="memitem:gab2837424e3774fe34ba255658554a75a" id="r_gab2837424e3774fe34ba255658554a75a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gab2837424e3774fe34ba255658554a75a">_float_to_hfp8_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
 <tr class="separator:gab2837424e3774fe34ba255658554a75a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga03a8f8825a16c6235b699886fa46e1f6" id="r_ga03a8f8825a16c6235b699886fa46e1f6"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">_hfp8_to_float_gpu</a> (const at::Tensor &amp;input, const int64_t ebits, const int64_t exponent_bias)</td></tr>
+<tr class="memitem:ga03a8f8825a16c6235b699886fa46e1f6" id="r_ga03a8f8825a16c6235b699886fa46e1f6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga03a8f8825a16c6235b699886fa46e1f6">_hfp8_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>)</td></tr>
 <tr class="separator:ga03a8f8825a16c6235b699886fa46e1f6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga427f81e1d8901e2fafc9611860fbd4d5" id="r_ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">_float_to_msfp_gpu</a> (const at::Tensor &amp;input, const int64_t bounding_box_size, const int64_t ebits, const int64_t mbits, const int64_t bias, const double min_pos, const double max_pos)</td></tr>
+<tr class="memitem:ga427f81e1d8901e2fafc9611860fbd4d5" id="r_ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga427f81e1d8901e2fafc9611860fbd4d5">_float_to_msfp_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bounding_box_size</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">min_pos</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
 <tr class="separator:ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gac0c20377454dbfafcc5ac245fe6427ce" id="r_gac0c20377454dbfafcc5ac245fe6427ce"><td class="memItemLeft" align="right" valign="top">DLL_PUBLIC at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">_msfp_to_float_gpu</a> (const at::Tensor &amp;input, const int64_t ebits, const int64_t mbits, const int64_t bias)</td></tr>
+<tr class="memitem:gac0c20377454dbfafcc5ac245fe6427ce" id="r_gac0c20377454dbfafcc5ac245fe6427ce"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gac0c20377454dbfafcc5ac245fe6427ce">_msfp_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>)</td></tr>
 <tr class="separator:gac0c20377454dbfafcc5ac245fe6427ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
-<p>The following are CUDA Operators </p>
 <h2 class="groupheader">Function Documentation</h2>
 <a id="ga2076a59fd190690f67c1eddb79b6acc4" name="ga2076a59fd190690f67c1eddb79b6acc4"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#ga2076a59fd190690f67c1eddb79b6acc4">&#9670;&#160;</a></span>_bfloat16_to_float_gpu()</h2>
@@ -100,10 +101,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2076a59fd190690f67c1edd
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _bfloat16_to_float_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _bfloat16_to_float_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -119,10 +119,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2f1cc4b6dc6f708324855f9
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _float_to_bfloat16_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _float_to_bfloat16_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -131,40 +130,113 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2f1cc4b6dc6f708324855f9
 
 </div>
 </div>
-<a id="gab2837424e3774fe34ba255658554a75a" name="gab2837424e3774fe34ba255658554a75a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#gab2837424e3774fe34ba255658554a75a">&#9670;&#160;</a></span>_float_to_hfp8_gpu()</h2>
+<a id="ga31b9029d43a60ad1fc90dc6ec54af9db" name="ga31b9029d43a60ad1fc90dc6ec54af9db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga31b9029d43a60ad1fc90dc6ec54af9db">&#9670;&#160;</a></span>_float_to_FP8rowwise_gpu()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _float_to_hfp8_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_FP8rowwise_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>ebits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga8c11c8dc06cae57b3afba79358c00e99" name="ga8c11c8dc06cae57b3afba79358c00e99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga8c11c8dc06cae57b3afba79358c00e99">&#9670;&#160;</a></span>_float_to_fused8bitrowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_fused8bitrowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gaa3e8fd136e9bfa0e4d0c0016659bf708" name="gaa3e8fd136e9bfa0e4d0c0016659bf708"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaa3e8fd136e9bfa0e4d0c0016659bf708">&#9670;&#160;</a></span>_float_to_fusednbitrowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_fusednbitrowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>exponent_bias</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga02c8f9158646d9b16efbd3853711f56a" name="ga02c8f9158646d9b16efbd3853711f56a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga02c8f9158646d9b16efbd3853711f56a">&#9670;&#160;</a></span>_float_to_fusednbitrowwise_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_fusednbitrowwise_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const double&#160;</td>
-          <td class="paramname"><em>max_pos</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gab2837424e3774fe34ba255658554a75a" name="gab2837424e3774fe34ba255658554a75a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gab2837424e3774fe34ba255658554a75a">&#9670;&#160;</a></span>_float_to_hfp8_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _float_to_hfp8_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_pos</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -179,86 +251,230 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga427f81e1d8901e2fafc9611
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _float_to_msfp_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _float_to_msfp_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>bounding_box_size</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bounding_box_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>ebits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>mbits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>mbits</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>bias</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const double&#160;</td>
-          <td class="paramname"><em>min_pos</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>min_pos</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const double&#160;</td>
-          <td class="paramname"><em>max_pos</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Converts a tensor of <code>float</code> values into a tensor of Microsoft Floating Point (<code>msfp</code>) values. </p>
+
+</div>
+</div>
+<a id="ga5043927653e4d50462b79b7f3df33223" name="ga5043927653e4d50462b79b7f3df33223"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga5043927653e4d50462b79b7f3df33223">&#9670;&#160;</a></span>_float_to_paddedFP8rowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_paddedFP8rowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_dim</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Converts a tensor of <code>float</code> values into a tensor of Microsoft Floating Point (<code>msfp</code>) values. </p>
 
 </div>
 </div>
-<a id="ga03a8f8825a16c6235b699886fa46e1f6" name="ga03a8f8825a16c6235b699886fa46e1f6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga03a8f8825a16c6235b699886fa46e1f6">&#9670;&#160;</a></span>_hfp8_to_float_gpu()</h2>
+<a id="ga4c2c033e940095d20e76e9e00fe925d3" name="ga4c2c033e940095d20e76e9e00fe925d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga4c2c033e940095d20e76e9e00fe925d3">&#9670;&#160;</a></span>_fused8bitrowwise_to_float_mixed_dim_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fused8bitrowwise_to_float_mixed_dim_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gafacdb4ec7d8f5b969c75d2127537ab16" name="gafacdb4ec7d8f5b969c75d2127537ab16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gafacdb4ec7d8f5b969c75d2127537ab16">&#9670;&#160;</a></span>_fused8bitrowwise_to_single_or_half_precision_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fused8bitrowwise_to_single_or_half_precision_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="gae1e827b74f0825dc4135e68c10e443b3" name="gae1e827b74f0825dc4135e68c10e443b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gae1e827b74f0825dc4135e68c10e443b3">&#9670;&#160;</a></span>_fusednbitrowwise_to_float_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _fusednbitrowwise_to_float_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga07f4c02c95710472b815bdc1d7bfff19" name="ga07f4c02c95710472b815bdc1d7bfff19"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga07f4c02c95710472b815bdc1d7bfff19">&#9670;&#160;</a></span>_fusednbitrowwise_to_float_or_half_gpu()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _hfp8_to_float_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fusednbitrowwise_to_float_or_half_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>ebits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>exponent_bias</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga6152517943258bd3adc42b7c103a9277" name="ga6152517943258bd3adc42b7c103a9277"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga6152517943258bd3adc42b7c103a9277">&#9670;&#160;</a></span>_fusednbitrowwise_to_half_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fusednbitrowwise_to_half_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga6e2bd64f3f9e3b36493ec955680771af" name="ga6e2bd64f3f9e3b36493ec955680771af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga6e2bd64f3f9e3b36493ec955680771af">&#9670;&#160;</a></span>_half_to_fusednbitrowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _half_to_fusednbitrowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga03a8f8825a16c6235b699886fa46e1f6" name="ga03a8f8825a16c6235b699886fa46e1f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga03a8f8825a16c6235b699886fa46e1f6">&#9670;&#160;</a></span>_hfp8_to_float_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _hfp8_to_float_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -273,44 +489,52 @@ <h2 class="memtitle"><span class="permalink"><a href="#gac0c20377454dbfafcc5ac24
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC at::Tensor _msfp_to_float_gpu </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _msfp_to_float_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>ebits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>mbits</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>mbits</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const int64_t&#160;</td>
-          <td class="paramname"><em>bias</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bias</em></span>&#160;)</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+<p>Converts a tensor of Microsoft Floating Point (<code>msfp</code>) values into a tensor of <code>float</code> values. </p>
+
+</div>
+</div>
+<a id="gaff285349cb9c51a56fc418b628772b16" name="gaff285349cb9c51a56fc418b628772b16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gaff285349cb9c51a56fc418b628772b16">&#9670;&#160;</a></span>_single_or_half_precision_to_fused8bitrowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _single_or_half_precision_to_fused8bitrowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Converts a tensor of Microsoft Floating Point (<code>msfp</code>) values into a tensor of <code>float</code> values. </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__sparse-data-cpu.html b/group__sparse-data-cpu.html
index e9ef7bf33..9c527a9ee 100644
--- a/group__sparse-data-cpu.html
+++ b/group__sparse-data-cpu.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Sparse Data CPU Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,9 +79,9 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ga201bb2241fc9d582d6c0fe968b0e71ca" id="r_ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">histogram_binning_calibration_cpu</a> (const at::Tensor &amp;logit, const at::Tensor &amp;bin_num_examples, const at::Tensor &amp;bin_num_positives, double positive_weight, double lower_bound=0.0, double upper_bound=1.0, int64_t bin_ctr_in_use_after=0, double bin_ctr_weight_value=1.0)</td></tr>
+<tr class="memitem:ga201bb2241fc9d582d6c0fe968b0e71ca" id="r_ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga201bb2241fc9d582d6c0fe968b0e71ca">histogram_binning_calibration_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lower_bound</a>=0.0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">upper_bound</a>=1.0, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
 <tr class="separator:ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gaef2a0a8c27e3b8b2d72be5c95ba7539e" id="r_gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">generic_histogram_binning_calibration_by_feature_cpu</a> (const at::Tensor &amp;logit, const at::Tensor &amp;segment_value, const at::Tensor &amp;segment_lengths, int64_t num_segments, const at::Tensor &amp;bin_num_examples, const at::Tensor &amp;bin_num_positives, const at::Tensor &amp;bin_boundaries, double positive_weight, int64_t bin_ctr_in_use_after=0, double bin_ctr_weight_value=1.0)</td></tr>
+<tr class="memitem:gaef2a0a8c27e3b8b2d72be5c95ba7539e" id="r_gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gaef2a0a8c27e3b8b2d72be5c95ba7539e">generic_histogram_binning_calibration_by_feature_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_value</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017">num_segments</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970">bin_boundaries</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
 <tr class="separator:gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
@@ -92,69 +94,54 @@ <h2 class="memtitle"><span class="permalink"><a href="#gaef2a0a8c27e3b8b2d72be5c
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::tuple&lt; Tensor, Tensor &gt; generic_histogram_binning_calibration_by_feature_cpu </td>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; generic_histogram_binning_calibration_by_feature_cpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>logit</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>segment_value</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_value</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>segment_lengths</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_lengths</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>num_segments</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>bin_num_examples</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>bin_num_positives</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>bin_boundaries</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_boundaries</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>positive_weight</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>bin_ctr_in_use_after</em> = <code>0</code>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>bin_ctr_weight_value</em> = <code>1.0</code>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -171,8 +158,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#gaef2a0a8c27e3b8b2d72be5c
     <tr><td class="paramname">segment_value/lengths</td><td>Values and lengths in KeyJaggedTensor. Assumes value of length is either 0 or 1. </td></tr>
     <tr><td class="paramname">num_bins</td><td># of bins is no longer the same as <code>bin_num_examples</code>, and <code>bin_num_positives</code>, all of which should be still the same size. </td></tr>
     <tr><td class="paramname">lower/upper_bound</td><td>Bounds of the bins. </td></tr>
-    <tr><td class="paramname">bin_ctr_in_use_after</td><td>We will use the calibration_target for the final calibrated prediction if we don't have sufficient examples. Only use the statistical value of bin CTR after we observe <code>bin_ctr_in_use_after</code> examples that fall in this bin. Default value is <code>0</code>. @parambin_ctr_weight_value Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="fragment"><div class="line">final_calibrated_prediction = bin_ctr_weight * bin_ctr + (1 -</div>
-<div class="line">bin_ctr_weight) * calibration_target.</div>
+    <tr><td class="paramname">bin_ctr_in_use_after</td><td>We will use the calibration_target for the final calibrated prediction if we don't have sufficient examples. Only use the statistical value of bin CTR after we observe <code>bin_ctr_in_use_after</code> examples that fall in this bin. Default value is <code>0</code>. @parambin_ctr_weight_value Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="fragment"><div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">final_calibrated_prediction</a> = <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr_weight</a> * <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr</a> + (1 -</div>
+<div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr_weight</a>) * <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">calibration_target</a>.</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
 </div><!-- fragment --> Default value: <code>1.0</code></td></tr>
   </table>
   </dd>
@@ -188,57 +176,44 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga201bb2241fc9d582d6c0fe9
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::tuple&lt; Tensor, Tensor &gt; histogram_binning_calibration_cpu </td>
+          <td class="memname">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; histogram_binning_calibration_cpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>logit</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>bin_num_examples</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>bin_num_positives</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>positive_weight</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>lower_bound</em> = <code>0.0</code>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">0.0</span>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>upper_bound</em> = <code>1.0</code>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>upper_bound</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>bin_ctr_in_use_after</em> = <code>0</code>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">double&#160;</td>
-          <td class="paramname"><em>bin_ctr_weight_value</em> = <code>1.0</code>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em><span class="paramdefsep"> = </span><span class="paramdefval">1.0</span></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -249,8 +224,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga201bb2241fc9d582d6c0fe9
     <tr><td class="paramname">positive_weight</td><td>is passed as input argument. The number of bins is automatically derived from <code>bin_num_examples</code>, and <code>bin_num_positives</code>, all of which should be the same size. </td></tr>
     <tr><td class="paramname">lower/upper_bound</td><td>Bounds of the bins. </td></tr>
     <tr><td class="paramname">bin_ctr_in_use_after</td><td>We will use the calibration_target for the final calibrated prediction if we don't have sufficient examples. Only use the statistical value of bin CTR after we observe <code>bin_ctr_in_use_after</code> examples that fall in this bin. Default value: 0. </td></tr>
-    <tr><td class="paramname">bin_ctr_weight_value</td><td>Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="fragment"><div class="line">final_calibrated_prediction = bin_ctr_weight * bin_ctr + (1 -</div>
-<div class="line">bin_ctr_weight) * calibration_target</div>
+    <tr><td class="paramname">bin_ctr_weight_value</td><td>Weight for statistical value of bin CTR. When this is specified, we perform a weighted sum for the statisctical bin CTR and the calibration_target: <div class="fragment"><div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">final_calibrated_prediction</a> = <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr_weight</a> * <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr</a> + (1 -</div>
+<div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_ctr_weight</a>) * <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">calibration_target</a></div>
 </div><!-- fragment --> Default value: 1.0 </td></tr>
   </table>
   </dd>
@@ -261,7 +236,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga201bb2241fc9d582d6c0fe9
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__sparse-data-cuda.html b/group__sparse-data-cuda.html
index 3b095afec..e6f5c8213 100644
--- a/group__sparse-data-cuda.html
+++ b/group__sparse-data-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Sparse Data CUDA Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,46 +79,58 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ga2402de1c0102b21af5f2bd5a50d30309" id="r_ga2402de1c0102b21af5f2bd5a50d30309"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">expand_into_jagged_permute_cuda</a> (const at::Tensor &amp;permute, const at::Tensor &amp;input_offsets, const at::Tensor &amp;output_offsets, int64_t output_size)</td></tr>
+<tr class="memitem:ga2402de1c0102b21af5f2bd5a50d30309" id="r_ga2402de1c0102b21af5f2bd5a50d30309"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga2402de1c0102b21af5f2bd5a50d30309">expand_into_jagged_permute_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">permute</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_size</a>)</td></tr>
 <tr class="separator:ga2402de1c0102b21af5f2bd5a50d30309"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <p>The following are CUDA operators </p>
 <h2 class="groupheader">Function Documentation</h2>
-<a id="ga2402de1c0102b21af5f2bd5a50d30309" name="ga2402de1c0102b21af5f2bd5a50d30309"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ga2402de1c0102b21af5f2bd5a50d30309">&#9670;&#160;</a></span>expand_into_jagged_permute_cuda()</h2>
+<a id="ga3b963d0e45c2bc0060aaa974efe64b8a" name="ga3b963d0e45c2bc0060aaa974efe64b8a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga3b963d0e45c2bc0060aaa974efe64b8a">&#9670;&#160;</a></span>_float_or_half_to_fusednbitrowwise_gpu()</h2>
 
 <div class="memitem">
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">DLL_PUBLIC Tensor expand_into_jagged_permute_cuda </td>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_or_half_to_fusednbitrowwise_gpu </td>
           <td>(</td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>permute</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>input_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ga2402de1c0102b21af5f2bd5a50d30309" name="ga2402de1c0102b21af5f2bd5a50d30309"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga2402de1c0102b21af5f2bd5a50d30309">&#9670;&#160;</a></span>expand_into_jagged_permute_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> expand_into_jagged_permute_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const at::Tensor &amp;&#160;</td>
-          <td class="paramname"><em>output_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>output_size</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
         </tr>
         <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -129,7 +143,11 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2402de1c0102b21af5f2bd5
   </table>
   </dd>
 </dl>
-<dl class="section return"><dt>Returns</dt><dd>The output follows the following formula: <div class="fragment"><div class="line">output_permute[table_offset[permute[table]] + batch] &lt;- bag_offset[batch]</div>
+<dl class="section return"><dt>Returns</dt><dd>The output follows the following formula: <div class="fragment"><div class="line"><a class="code hl_variable" href="namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54">output_permute</a>[<a class="code hl_variable" href="namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f">table_offset</a>[<a class="code hl_variable" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">permute</a>[<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">table</a>]] + <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">batch</a>] &lt;- <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">bag_offset</a>[<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">batch</a>]</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a242d5a911279d9ad2128346af039383f"><div class="ttname"><a href="namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f">fbgemm_gpu::table_offset</a></div><div class="ttdeci">index_t table_offset</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:36</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a313d400789ec7e8bf0702c1d06339394"><div class="ttname"><a href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">fbgemm_gpu::permute</a></div><div class="ttdeci">__global__ const offsets_t *__restrict__ int32_t const index_t *__restrict__ permute</div><div class="ttdef"><b>Definition</b> sparse_expand_into_jagged_permute.cu:23</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aa80e8b11fe8b3b1a619f329aeb089f54"><div class="ttname"><a href="namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54">fbgemm_gpu::output_permute</a></div><div class="ttdeci">__global__ const offsets_t *__restrict__ int32_t const index_t *__restrict__ index_t *__restrict__ output_permute</div><div class="ttdef"><b>Definition</b> sparse_expand_into_jagged_permute.cu:24</div></div>
 </div><!-- fragment --> </dd></dl>
 
 </div>
@@ -137,7 +155,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2402de1c0102b21af5f2bd5
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/group__table-batched-embed-cuda.html b/group__table-batched-embed-cuda.html
index 4fca1967a..447a75d94 100644
--- a/group__table-batched-embed-cuda.html
+++ b/group__table-batched-embed-cuda.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: CUDA Operators</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -77,35 +79,35 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ga4887151424a90cfd0abef174a4e91f3f" id="r_ga4887151424a90cfd0abef174a4e91f3f"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor, c10::optional&lt; at::Tensor &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">get_unique_indices_cuda</a> (at::Tensor linear_indices, int64_t max_indices, bool compute_count)</td></tr>
+<tr class="memitem:ga4887151424a90cfd0abef174a4e91f3f" id="r_ga4887151424a90cfd0abef174a4e91f3f"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga4887151424a90cfd0abef174a4e91f3f">get_unique_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_indices</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">compute_count</a>)</td></tr>
 <tr class="separator:ga4887151424a90cfd0abef174a4e91f3f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga76807cfe283a9e8f258818f3f439e6cd" id="r_ga76807cfe283a9e8f258818f3f439e6cd"><td class="memItemLeft" align="right" valign="top">std::pair&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find_uncached_cuda</a> (at::Tensor unique_indices, at::Tensor unique_indices_length, int64_t max_indices, at::Tensor lxu_cache_state, int64_t time_stamp, at::Tensor lru_state, bool gather_cache_stats, at::Tensor uvm_cache_stats, bool lock_cache_line, at::Tensor lxu_cache_locking_counter)</td></tr>
+<tr class="memitem:ga76807cfe283a9e8f258818f3f439e6cd" id="r_ga76807cfe283a9e8f258818f3f439e6cd"><td class="memItemLeft" align="right" valign="top">std::pair&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find_uncached_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices_length</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">time_stamp</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lru_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">gather_cache_stats</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uvm_cache_stats</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lock_cache_line</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>)</td></tr>
 <tr class="separator:ga76807cfe283a9e8f258818f3f439e6cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga920da453c443675fc7fbc9d68e272a61" id="r_ga920da453c443675fc7fbc9d68e272a61"><td class="memItemLeft" align="right" valign="top">int64_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">host_lxu_cache_slot</a> (int64_t h_in, int64_t C)</td></tr>
+<tr class="memitem:ga920da453c443675fc7fbc9d68e272a61" id="r_ga920da453c443675fc7fbc9d68e272a61"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga920da453c443675fc7fbc9d68e272a61">host_lxu_cache_slot</a> (<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">h_in</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C</a>)</td></tr>
 <tr class="separator:ga920da453c443675fc7fbc9d68e272a61"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga23e7545e51b296d9b72c86f37c360dc6" id="r_ga23e7545e51b296d9b72c86f37c360dc6"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices_cuda</a> (at::Tensor cache_hash_size_cumsum, at::Tensor indices, at::Tensor offsets)</td></tr>
+<tr class="memitem:ga23e7545e51b296d9b72c86f37c360dc6" id="r_ga23e7545e51b296d9b72c86f37c360dc6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>)</td></tr>
 <tr class="separator:ga23e7545e51b296d9b72c86f37c360dc6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga6eed85d3e9b5dbef8a753bb81c2d6e05" id="r_ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices_from_row_idx_cuda</a> (at::Tensor cache_hash_size_cumsum, at::Tensor update_table_indices, at::Tensor update_row_indices)</td></tr>
+<tr class="memitem:ga6eed85d3e9b5dbef8a753bb81c2d6e05" id="r_ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices_from_row_idx_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>)</td></tr>
 <tr class="separator:ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga00d12767ad238d73598bf7dc4d1afa06" id="r_ga00d12767ad238d73598bf7dc4d1afa06"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06">lru_cache_populate_cuda</a> (at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, bool stochastic_rounding, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; at::Tensor &gt; lxu_cache_locking_counter)</td></tr>
+<tr class="memitem:ga00d12767ad238d73598bf7dc4d1afa06" id="r_ga00d12767ad238d73598bf7dc4d1afa06"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga00d12767ad238d73598bf7dc4d1afa06">lru_cache_populate_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, bool <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; lxu_cache_locking_counter)</td></tr>
 <tr class="separator:ga00d12767ad238d73598bf7dc4d1afa06"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga5958e4cecc978d415714a3dd691fbc11" id="r_ga5958e4cecc978d415714a3dd691fbc11"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11">lru_cache_populate_byte_cuda</a> (at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats)</td></tr>
+<tr class="memitem:ga5958e4cecc978d415714a3dd691fbc11" id="r_ga5958e4cecc978d415714a3dd691fbc11"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga5958e4cecc978d415714a3dd691fbc11">lru_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights_tys, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> row_alignment, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
 <tr class="separator:ga5958e4cecc978d415714a3dd691fbc11"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gae019b6879bd9f89a146e0700d5a4bd8b" id="r_gae019b6879bd9f89a146e0700d5a4bd8b"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b">direct_mapped_lru_cache_populate_byte_cuda</a> (at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, at::Tensor lxu_cache_miss_timestamp, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats)</td></tr>
+<tr class="memitem:gae019b6879bd9f89a146e0700d5a4bd8b" id="r_gae019b6879bd9f89a146e0700d5a4bd8b"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gae019b6879bd9f89a146e0700d5a4bd8b">direct_mapped_lru_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights_tys, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_miss_timestamp, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> row_alignment, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
 <tr class="separator:gae019b6879bd9f89a146e0700d5a4bd8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga854b8951ef7e78da812be97041d7d2dc" id="r_ga854b8951ef7e78da812be97041d7d2dc"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate_cuda</a> (at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, bool stochastic_rounding)</td></tr>
+<tr class="memitem:ga854b8951ef7e78da812be97041d7d2dc" id="r_ga854b8951ef7e78da812be97041d7d2dc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
 <tr class="separator:ga854b8951ef7e78da812be97041d7d2dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga2b76a0cf452f00e77696d896d7a402f3" id="r_ga2b76a0cf452f00e77696d896d7a402f3"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte_cuda</a> (at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, int64_t row_alignment)</td></tr>
+<tr class="memitem:ga2b76a0cf452f00e77696d896d7a402f3" id="r_ga2b76a0cf452f00e77696d896d7a402f3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>)</td></tr>
 <tr class="separator:ga2b76a0cf452f00e77696d896d7a402f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga124b70b0fede88f508e59111ce6d765f" id="r_ga124b70b0fede88f508e59111ce6d765f"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f">lxu_cache_lookup_cuda</a> (at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices, c10::optional&lt; at::Tensor &gt; lxu_cache_locations_output)</td></tr>
+<tr class="memitem:ga124b70b0fede88f508e59111ce6d765f" id="r_ga124b70b0fede88f508e59111ce6d765f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga124b70b0fede88f508e59111ce6d765f">lxu_cache_lookup_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> invalid_index, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; num_uniq_cache_indices, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; lxu_cache_locations_output)</td></tr>
 <tr class="separator:ga124b70b0fede88f508e59111ce6d765f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gab305ebdd3822794c5ac462bf5df4bb49" id="r_gab305ebdd3822794c5ac462bf5df4bb49"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49">direct_mapped_lxu_cache_lookup_cuda</a> (at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats)</td></tr>
+<tr class="memitem:gab305ebdd3822794c5ac462bf5df4bb49" id="r_gab305ebdd3822794c5ac462bf5df4bb49"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gab305ebdd3822794c5ac462bf5df4bb49">direct_mapped_lxu_cache_lookup_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> invalid_index, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
 <tr class="separator:gab305ebdd3822794c5ac462bf5df4bb49"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga2b055aeb5bf2d99bfb4351271764cab1" id="r_ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache_flush_cuda</a> (at::Tensor uvm_weights, at::Tensor cache_hash_size_cumsum, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, bool stochastic_rounding)</td></tr>
+<tr class="memitem:ga2b055aeb5bf2d99bfb4351271764cab1" id="r_ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache_flush_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_D</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
 <tr class="separator:ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:gaeaf8f13290f0fe389fefa3fc2a944311" id="r_gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache_locking_counter_decrement_cuda</a> (at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations)</td></tr>
+<tr class="memitem:gaeaf8f13290f0fe389fefa3fc2a944311" id="r_gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache_locking_counter_decrement_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>)</td></tr>
 <tr class="separator:gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ga65cba33a439fb1ed50fe2e80dc22b603" id="r_ga65cba33a439fb1ed50fe2e80dc22b603"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603">lxu_cache_locations_update_cuda</a> (at::Tensor lxu_cache_locations, at::Tensor lxu_cache_locations_new, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices)</td></tr>
+<tr class="memitem:ga65cba33a439fb1ed50fe2e80dc22b603" id="r_ga65cba33a439fb1ed50fe2e80dc22b603"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ga65cba33a439fb1ed50fe2e80dc22b603">lxu_cache_locations_update_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_locations_new, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; num_uniq_cache_indices)</td></tr>
 <tr class="separator:ga65cba33a439fb1ed50fe2e80dc22b603"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
@@ -120,103 +122,82 @@ <h2 class="memtitle"><span class="permalink"><a href="#gae019b6879bd9f89a146e070
         <tr>
           <td class="memname">void direct_mapped_lru_cache_populate_byte_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_tys</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>time_stamp</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lru_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_miss_timestamp</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_miss_timestamp</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>row_alignment</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -231,39 +212,29 @@ <h2 class="memtitle"><span class="permalink"><a href="#gab305ebdd3822794c5ac462b
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">at::Tensor direct_mapped_lxu_cache_lookup_cuda </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> direct_mapped_lxu_cache_lookup_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>invalid_index</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -278,27 +249,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga4887151424a90cfd0abef17
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::tuple&lt; at::Tensor, at::Tensor, c10::optional&lt; at::Tensor &gt; &gt; get_unique_indices_cuda </td>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &gt; get_unique_indices_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>compute_count</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>compute_count</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -313,21 +276,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga920da453c443675fc7fbc9d
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">int64_t host_lxu_cache_slot </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> host_lxu_cache_slot </td>
           <td>(</td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>h_in</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>h_in</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>C</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>C</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -342,81 +298,64 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2b76a0cf452f00e77696d89
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void lfu_cache_populate_byte_cuda </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lfu_cache_populate_byte_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_tys</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lfu_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lfu_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>row_alignment</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -431,75 +370,59 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga854b8951ef7e78da812be97
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void lfu_cache_populate_cuda </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lfu_cache_populate_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lfu_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lfu_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>stochastic_rounding</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -514,27 +437,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga23e7545e51b296d9b72c86f
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">at::Tensor linearize_cache_indices_cuda </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linearize_cache_indices_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>offsets</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -549,27 +464,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga6eed85d3e9b5dbef8a753bb
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">at::Tensor linearize_cache_indices_from_row_idx_cuda </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linearize_cache_indices_from_row_idx_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>update_table_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_table_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>update_row_indices</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_row_indices</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -584,69 +491,54 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga76807cfe283a9e8f258818f
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">std::pair&lt; at::Tensor, at::Tensor &gt; lru_cache_find_uncached_cuda </td>
+          <td class="memname">std::pair&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; lru_cache_find_uncached_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>unique_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>unique_indices_length</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices_length</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>max_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>time_stamp</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lru_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>lock_cache_line</em>, </td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>lock_cache_line</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_locking_counter</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locking_counter</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -663,97 +555,77 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga5958e4cecc978d415714a3d
         <tr>
           <td class="memname">void lru_cache_populate_byte_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_tys</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>time_stamp</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lru_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>row_alignment</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -770,103 +642,82 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga00d12767ad238d73598bf7d
         <tr>
           <td class="memname">void lru_cache_populate_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_cache_hash_size</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>time_stamp</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lru_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>stochastic_rounding</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>lock_cache_line</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>lock_cache_line</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_cache_locking_counter</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locking_counter</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -881,63 +732,49 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga2b055aeb5bf2d99bfb43512
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void lxu_cache_flush_cuda </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lxu_cache_flush_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>uvm_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_hash_size_cumsum</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>cache_index_table_map</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>weights_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>D_offsets</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>total_D</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_D</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_weights</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>stochastic_rounding</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -954,25 +791,17 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga65cba33a439fb1ed50fe2e8
         <tr>
           <td class="memname">void lxu_cache_locations_update_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_locations</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_locations_new</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations_new</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>num_uniq_cache_indices</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>num_uniq_cache_indices</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -987,21 +816,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#gaeaf8f13290f0fe389fefa3f
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">void lxu_cache_locking_counter_decrement_cuda </td>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lxu_cache_locking_counter_decrement_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_locking_counter</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locking_counter</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_locations</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -1016,62 +838,146 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga124b70b0fede88f508e5911
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">at::Tensor lxu_cache_lookup_cuda </td>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_lookup_cuda </td>
           <td>(</td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>linear_cache_indices</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">at::Tensor&#160;</td>
-          <td class="paramname"><em>lxu_cache_state</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int64_t&#160;</td>
-          <td class="paramname"><em>invalid_index</em>, </td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">bool&#160;</td>
-          <td class="paramname"><em>gather_cache_stats</em>, </td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>uvm_cache_stats</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>num_uniq_cache_indices</em>, </td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>num_uniq_cache_indices</em>, </span></td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">c10::optional&lt; at::Tensor &gt;&#160;</td>
-          <td class="paramname"><em>lxu_cache_locations_output</em>&#160;</td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations_output</em></span>&#160;)</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+<p>Lookup the LRU/LFU cache: find the cache weights location for all indices. Look up the slots in the cache corresponding to <code>linear_cache_indices</code>, with a sentinel value for missing. </p>
+
+</div>
+</div>
+<a id="ga59334fdad832f8d67576e6c83a9b9d79" name="ga59334fdad832f8d67576e6c83a9b9d79"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ga59334fdad832f8d67576e6c83a9b9d79">&#9670;&#160;</a></span>reset_weight_momentum_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> reset_weight_momentum_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_dev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_uvm</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>momentum1_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>pruned_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>pruned_indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>logical_table_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>buffer_ids</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em></span>&#160;)</td>
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Lookup the LRU/LFU cache: find the cache weights location for all indices. Look up the slots in the cache corresponding to <code>linear_cache_indices</code>, with a sentinel value for missing. </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/hierarchy.html b/hierarchy.html
new file mode 100644
index 000000000..2ba5ff6c3
--- /dev/null
+++ b/hierarchy.html
@@ -0,0 +1,145 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Class Hierarchy</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="header">
+  <div class="headertitle"><div class="title">Class Hierarchy</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock">This inheritance list is sorted roughly, but not completely, alphabetically:</div><div class="directory">
+<div class="levels">[detail level <span onclick="javascript:dynsection.toggleLevel(1);">1</span><span onclick="javascript:dynsection.toggleLevel(2);">2</span>]</div><table class="directory">
+<tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html" target="_self">BitonicSort&lt; K, V, Dir, Comp &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_1_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_comparator.html" target="_self">Comparator&lt; T &gt;</a></td><td class="desc">Warp bitonic K/V sorting code </td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html" target="_self">DefaultPtrTraits&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_3_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_3_" class="arrow" onclick="dynsection.toggleFolder('3_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><b>enable_shared_from_this</b></td><td class="desc"></td></tr>
+<tr id="row_3_0_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classssd_1_1_embedding_rocks_d_b.html" target="_self">EmbeddingRocksDB</a></td><td class="desc"></td></tr>
+<tr id="row_4_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1enum__registration.html" target="_self">enum_registration&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_5_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html" target="_self">FixedDivisor</a></td><td class="desc"></td></tr>
+<tr id="row_6_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_6_" class="arrow" onclick="dynsection.toggleFolder('6_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><b>Function</b></td><td class="desc"></td></tr>
+<tr id="row_6_0_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html" target="_self">PermutePooledEmbsFunction</a></td><td class="desc"></td></tr>
+<tr id="row_6_1_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html" target="_self">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_7_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_7_" class="arrow" onclick="dynsection.toggleFolder('7_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" target="_self">GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_7_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html" target="_self">GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_8_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_8_" class="arrow" onclick="dynsection.toggleFolder('8_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" target="_self">GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_8_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html" target="_self">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_9_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html" target="_self">GenericPackedTensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_10_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_half4.html" target="_self">Half4</a></td><td class="desc"></td></tr>
+<tr id="row_11_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html" target="_self">HyperCompressedSparseColumn</a></td><td class="desc"></td></tr>
+<tr id="row_12_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classssd_1_1_initializer.html" target="_self">Initializer</a></td><td class="desc"></td></tr>
+<tr id="row_13_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc.html" target="_self">log2_calc&lt; x &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_14_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc__.html" target="_self">log2_calc_&lt; x &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_15_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structlog2__calc___3_010_01_4.html" target="_self">log2_calc_&lt; 0 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_16_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1rk__state.html" target="_self">rk_state</a></td><td class="desc"></td></tr>
+<tr id="row_17_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory.html" target="_self">SharedMemory&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_18_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html" target="_self">SharedMemory&lt; double &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_19_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html" target="_self">SharedMemory&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_20_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html" target="_self">SharedMemory&lt; int32_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_21_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html" target="_self">SharedMemory&lt; int64_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_22_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html" target="_self">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_23_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html" target="_self">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_24_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_stack_array.html" target="_self">StackArray&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_25_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html" target="_self">StochasticRoundingRNGState</a></td><td class="desc"></td></tr>
+<tr id="row_26_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_26_" class="arrow" onclick="dynsection.toggleFolder('26_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html" target="_self">TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_26_0_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html" target="_self">TensorAccessor&lt; T, N, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_27_" class="odd"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_27_" class="arrow" onclick="dynsection.toggleFolder('27_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html" target="_self">TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_27_0_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html" target="_self">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_28_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html" target="_self">TensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_29_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_29_" class="arrow" onclick="dynsection.toggleFolder('29_')">&#9660;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html" target="_self">Vec4AccT</a></td><td class="desc"></td></tr>
+<tr id="row_29_0_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html" target="_self">Vec4StepT&lt; STEP, input_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_29_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html" target="_self">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_29_2_" class="odd"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html" target="_self">Vec4StepT&lt; STEP, float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_29_3_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html" target="_self">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_30_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html" target="_self">Vec4T&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_31_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html" target="_self">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_32_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html" target="_self">Vec4T&lt; at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_33_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html" target="_self">Vec4T&lt; double &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_34_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html" target="_self">Vec4T&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_35_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type.html" target="_self">Vec4Type&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_36_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html" target="_self">Vec4Type&lt; at::Half &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_37_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01float_01_4.html" target="_self">Vec4Type&lt; float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_38_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html" target="_self">Vec4Type&lt; uint8_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_39_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html" target="_self">VecNT&lt; N, PrimitiveType &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_40_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_41_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_42_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_43_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html" target="_self">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_44_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_45_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html" target="_self">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_46_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structfbgemm__gpu_1_1_weight_row.html" target="_self">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="desc"></td></tr>
+</table>
+</div><!-- directory -->
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/histogram__binning__calibration__ops_8cu.html b/histogram__binning__calibration__ops_8cu.html
new file mode 100644
index 000000000..18f5f73b5
--- /dev/null
+++ b/histogram__binning__calibration__ops_8cu.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/histogram_binning_calibration_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">histogram_binning_calibration_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/Dispatch.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/index.html b/index.html
index 4b796d4c3..3e564af26 100644
--- a/index.html
+++ b/index.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
     <link rel="next" title="Build Instructions" href="general/BuildInstructions.html" />
@@ -251,18 +253,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -350,11 +353,11 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="welcome-to-fbgemm-s-documentation">
-<h1>Welcome to FBGEMM’s documentation!<a class="headerlink" href="#welcome-to-fbgemm-s-documentation" title="Permalink to this headline">¶</a></h1>
+<h1>Welcome to FBGEMM’s documentation!<a class="headerlink" href="#welcome-to-fbgemm-s-documentation" title="Permalink to this heading">¶</a></h1>
 <p>This documentation provides a comprehensive reference of the <cite>fbgemm_gpu</cite>
 library.</p>
-<div class="toctree-wrapper compound">
-<p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+<div class="toctree-wrapper compound" id="fbgemm-gpu-docs-toc-general">
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="general/BuildInstructions.html">Build Instructions</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="general/BuildInstructions.html#set-up-an-isolated-build-environment">Set Up an Isolated Build Environment</a></li>
@@ -381,21 +384,44 @@ <h1>Welcome to FBGEMM’s documentation!<a class="headerlink" href="#welcome-to-
 <li class="toctree-l2"><a class="reference internal" href="general/TestInstructions.html#fbgemm-gpu-benchmarks">FBGEMM_GPU Benchmarks</a></li>
 </ul>
 </li>
+<li class="toctree-l1"><a class="reference internal" href="general/DocsInstructions.html">Contributing Documentation</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="general/DocsInstructions.html#building-the-api-documentation">Building the API Documentation</a></li>
+<li class="toctree-l2"><a class="reference internal" href="general/DocsInstructions.html#general-documentation-guidelines">General Documentation Guidelines</a></li>
+<li class="toctree-l2"><a class="reference internal" href="general/DocsInstructions.html#adding-documentation-to-python-code">Adding Documentation to Python Code</a></li>
+<li class="toctree-l2"><a class="reference internal" href="general/DocsInstructions.html#adding-documentation-to-c-code">Adding Documentation to C++ Code</a></li>
+</ul>
+</li>
 </ul>
 </div>
-<div class="toctree-wrapper compound">
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<div class="toctree-wrapper compound" id="fbgemm-gpu-docs-toc-python">
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
+<li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="python-api/table_batched_embedding_ops.html#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_2d_to_dense()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_1d_to_dense()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.dense_to_jagged"><code class="docutils literal notranslate"><span class="pre">dense_to_jagged()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_to_padded_dense"><code class="docutils literal notranslate"><span class="pre">jagged_to_padded_dense()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_add"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.jagged_dense_elementwise_mul"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_mul()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"><code class="docutils literal notranslate"><span class="pre">batched_dense_vec_jagged_2d_mul()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_1d_to_dense()</span></code></a></li>
+<li class="toctree-l2"><a class="reference internal" href="python-api/jagged_tensor_ops.html#torch.ops.fbgemm.stacked_jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_2d_to_dense()</span></code></a></li>
+</ul>
+</li>
 </ul>
 </div>
-<div class="toctree-wrapper compound">
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<div class="toctree-wrapper compound" id="fbgemm-gpu-docs-toc-cpp">
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/sparse_ops.html">Sparse Data Operators</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="cpp-api/sparse_ops.html#sparse-data-cuda-operators">Sparse Data CUDA Operators</a></li>
-<li class="toctree-l2"><a class="reference internal" href="cpp-api/sparse_ops.html#sparse-data-cpu-operators">Sparse Data CPU Operators</a></li>
+<li class="toctree-l2"><a class="reference internal" href="cpp-api/sparse_ops.html#cuda-operators">CUDA Operators</a></li>
+<li class="toctree-l2"><a class="reference internal" href="cpp-api/sparse_ops.html#cpu-operators">CPU Operators</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/quantize_ops.html">Quantization Operators</a><ul>
@@ -489,11 +515,9 @@ <h1>Welcome to FBGEMM’s documentation!<a class="headerlink" href="#welcome-to-
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>
-         <script src="_static/jquery.js"></script>
-         <script src="_static/underscore.js"></script>
+         <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js"></script>
          <script src="_static/doctools.js"></script>
-         <script src="_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/input__combine_8cu.html b/input__combine_8cu.html
new file mode 100644
index 000000000..6086d5479
--- /dev/null
+++ b/input__combine_8cu.html
@@ -0,0 +1,113 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/input_combine_ops/input_combine.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_47b3f8f6a06f015d543fc51782f25cbc.html">input_combine_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">input_combine.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="input__combine_8h.html">fbgemm_gpu/input_combine.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/input__combine_8h.html b/input__combine_8h.html
new file mode 100644
index 000000000..187383878
--- /dev/null
+++ b/input__combine_8h.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/input_combine.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">input_combine.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/input__combine__cpu_8cpp.html b/input__combine__cpu_8cpp.html
new file mode 100644
index 000000000..44cbb52aa
--- /dev/null
+++ b/input__combine__cpu_8cpp.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/input_combine_ops/input_combine_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_47b3f8f6a06f015d543fc51782f25cbc.html">input_combine_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">input_combine_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="input__combine_8h.html">fbgemm_gpu/input_combine.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Context.h&gt;</code><br />
+<code>#include &lt;ATen/Dispatch.h&gt;</code><br />
+<code>#include &lt;ATen/Functions.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;c10/core/ScalarType.h&gt;</code><br />
+<code>#include &lt;c10/core/TensorOptions.h&gt;</code><br />
+<code>#include &lt;c10/util/Exception.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:af01b4023830652f0cc3e99c87f7b4526" id="r_af01b4023830652f0cc3e99c87f7b4526"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#af01b4023830652f0cc3e99c87f7b4526">padding_fused_tbe_input_combine_with_length_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_list</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lengths_list</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">per_sample_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#add6df347839b36aa580f997fddaebf86">batch_size</a>)</td></tr>
+<tr class="separator:af01b4023830652f0cc3e99c87f7b4526"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/input__combine__gpu_8cpp.html b/input__combine__gpu_8cpp.html
new file mode 100644
index 000000000..498dfc015
--- /dev/null
+++ b/input__combine__gpu_8cpp.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/input_combine_ops/input_combine_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_47b3f8f6a06f015d543fc51782f25cbc.html">input_combine_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">input_combine_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="input__combine_8h.html">fbgemm_gpu/input_combine.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__dense__bmm__forward_8cu.html b/jagged__dense__bmm__forward_8cu.html
new file mode 100644
index 000000000..b39bcf655
--- /dev/null
+++ b/jagged__dense__bmm__forward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_dense_bmm_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_dense_bmm_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a10db24b3c6258b287f12eb591b6b1274" name="a10db24b3c6258b287f12eb591b6b1274"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10db24b3c6258b287f12eb591b6b1274">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_bmm_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a4961acd2615018dff4fdf1390158f0a4">fbgemm_gpu::jagged_dense_bmm_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html b/jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html
new file mode 100644
index 000000000..cf46c32de
--- /dev/null
+++ b/jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html
@@ -0,0 +1,189 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_dense_dense_elementwise_add_jagged_output_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_dense_dense_elementwise_add_jagged_output_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  {                                                                            \</div>
+<div class="line">    dim3 threads, blocks;                                                      \</div>
+<div class="line">    <a class="code hl_struct" href="struct_stack_array.html">StackArray&lt;int64_t&gt;</a> jagged_dims_tensor;                                    \</div>
+<div class="line">    std::tie(threads, blocks, jagged_dims_tensor) =                            \</div>
+<div class="line">        check_shape_and_partition_(x_values, x_offsets, y_0);                  \</div>
+<div class="line">    blocks.x = div_round_up(x_values.size(0), threads.y);                      \</div>
+<div class="line">    std::vector&lt;Tensor&gt; x_offsets_contig;                                      \</div>
+<div class="line">    x_offsets_contig.resize(num_jagged_dim);                                   \</div>
+<div class="line">    <a class="code hl_struct" href="struct_stack_array.html">StackArray&lt;index_t*&gt;</a> x_offset_ptrs;                                        \</div>
+<div class="line">    x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">ndim</a> = num_jagged_dim;                                       \</div>
+<div class="line">    <a class="code hl_struct" href="struct_stack_array.html">StackArray&lt;int64_t&gt;</a> x_offset_sizes;                                        \</div>
+<div class="line">    x_offset_sizes.<a class="code hl_variable" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">ndim</a> = num_jagged_dim;                                      \</div>
+<div class="line">    for (<span class="keywordtype">int</span> d = 0; d &lt; num_jagged_dim; ++d) {                                 \</div>
+<div class="line">      x_offsets_contig[d] = x_offsets[d].contiguous();                         \</div>
+<div class="line">      x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">vals</a>[d] =                                                  \</div>
+<div class="line">          x_offsets_contig[d].template data_ptr&lt;index_t&gt;();                    \</div>
+<div class="line">      x_offset_sizes.<a class="code hl_variable" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">vals</a>[d] = x_offsets[d].numel();                           \</div>
+<div class="line">    }                                                                          \</div>
+<div class="line">    jagged_dense_dense_elementwise_jagged_output_kernel_&lt;                      \</div>
+<div class="line">        NUM_JAGGED_DIM,                                                        \</div>
+<div class="line">        index_t&gt;&lt;&lt;&lt;blocks, threads, 0, at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(    \</div>
+<div class="line">        x_values.packed_accessor32&lt;scalar_t, 2, at::RestrictPtrTraits&gt;(),      \</div>
+<div class="line">        x_offset_ptrs,                                                         \</div>
+<div class="line">        x_offset_sizes,                                                        \</div>
+<div class="line">        y_0_reshaped.packed_accessor32&lt;scalar_t, 3, at::RestrictPtrTraits&gt;(),  \</div>
+<div class="line">        y_1_reshaped.packed_accessor32&lt;scalar_t, 3, at::RestrictPtrTraits&gt;(),  \</div>
+<div class="line">        output_values.packed_accessor32&lt;scalar_t, 2, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">        jagged_dims_tensor,                                                    \</div>
+<div class="line">        f);                                                                    \</div>
+<div class="line">  }</div>
+<div class="ttc" id="astruct_stack_array_html"><div class="ttname"><a href="struct_stack_array.html">StackArray</a></div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:446</div></div>
+<div class="ttc" id="astruct_stack_array_html_a7cff664dfb347e3967c24b7c4ebe0fa9"><div class="ttname"><a href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">StackArray::ndim</a></div><div class="ttdeci">size_t ndim</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:448</div></div>
+<div class="ttc" id="astruct_stack_array_html_a9f80f8c0a4403726aa06af2340127ce3"><div class="ttname"><a href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">StackArray::vals</a></div><div class="ttdeci">T vals[kStackArrayMaxDims]</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:447</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a4dc38a80ec480c8ba5e73920df40ade3" name="a4dc38a80ec480c8ba5e73920df40ade3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4dc38a80ec480c8ba5e73920df40ade3">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_dense_elementwise_add_jagged_output_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a10611541bdce9c65bfe48a01474d1725">fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output_forward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__dense__elementwise__mul__backward_8cu.html b/jagged__dense__elementwise__mul__backward_8cu.html
new file mode 100644
index 000000000..f9958533b
--- /dev/null
+++ b/jagged__dense__elementwise__mul__backward_8cu.html
@@ -0,0 +1,188 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_dense_elementwise_mul_backward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_dense_elementwise_mul_backward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791" id="r_ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791">__launch_bounds__</a> (kMaxThreads) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">jagged_jagged_elementwise_dense_output_kernel_</a>(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pta</a></td></tr>
+<tr class="separator:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  {                                                                          \</div>
+<div class="line">    std::vector&lt;Tensor&gt; x_offsets_contig;                                    \</div>
+<div class="line">    x_offsets_contig.resize(num_jagged_dim);                                 \</div>
+<div class="line">    <a class="code hl_struct" href="struct_stack_array.html">StackArray&lt;index_t*&gt;</a> x_offset_ptrs;                                      \</div>
+<div class="line">    x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">ndim</a> = num_jagged_dim;                                     \</div>
+<div class="line">    for (<span class="keywordtype">int</span> d = 0; d &lt; num_jagged_dim; ++d) {                               \</div>
+<div class="line">      x_offsets_contig[d] = x_offsets[d].contiguous();                       \</div>
+<div class="line">      x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">vals</a>[d] =                                                \</div>
+<div class="line">          x_offsets_contig[d].template data_ptr&lt;index_t&gt;();                  \</div>
+<div class="line">    }                                                                        \</div>
+<div class="line">    [[maybe_unused]] <span class="keyword">const</span> <span class="keyword">auto</span> func_name =                                  \</div>
+<div class="line">        <span class="stringliteral">&quot;jagged_jagged_elementwise_dense_output_kernel_&quot;</span>;                    \</div>
+<div class="line">    jagged_jagged_elementwise_dense_output_kernel_&lt;NUM_JAGGED_DIM, index_t&gt;  \</div>
+<div class="line">        &lt;&lt;&lt;blocks, threads, 0, at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(          \</div>
+<div class="line">            MAKE_PTA_WITH_NAME(func_name, x_values, scalar_t, 2, 32),        \</div>
+<div class="line">            x_offset_ptrs,                                                   \</div>
+<div class="line">            MAKE_PTA_WITH_NAME(func_name, y_values, scalar_t, 2, 32),        \</div>
+<div class="line">            MAKE_PTA_WITH_NAME(func_name, output_reshaped, scalar_t, 3, 32), \</div>
+<div class="line">            jagged_dims_tensor,                                              \</div>
+<div class="line">            f,                                                               \</div>
+<div class="line">            padding_value);                                                  \</div>
+<div class="line">  }</div>
+<div class="ttc" id="astruct_stack_array_html"><div class="ttname"><a href="struct_stack_array.html">StackArray</a></div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:446</div></div>
+<div class="ttc" id="astruct_stack_array_html_a7cff664dfb347e3967c24b7c4ebe0fa9"><div class="ttname"><a href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">StackArray::ndim</a></div><div class="ttdeci">size_t ndim</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:448</div></div>
+<div class="ttc" id="astruct_stack_array_html_a9f80f8c0a4403726aa06af2340127ce3"><div class="ttname"><a href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">StackArray::vals</a></div><div class="ttdeci">T vals[kStackArrayMaxDims]</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:447</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a56064ede1846b15cd7ee664d3ac0f447" name="a56064ede1846b15cd7ee664d3ac0f447"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56064ede1846b15cd7ee664d3ac0f447">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_elementwise_mul_backward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a6de8f2f64f7d90ab1997df02470a9564">fbgemm_gpu::jagged_dense_elementwise_mul_backward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__dense__elementwise__mul__forward_8cu.html b/jagged__dense__elementwise__mul__forward_8cu.html
new file mode 100644
index 000000000..691220c66
--- /dev/null
+++ b/jagged__dense__elementwise__mul__forward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_dense_elementwise_mul_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_dense_elementwise_mul_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a55ae1a4e6489decd594fc7c77fb36cd4" name="a55ae1a4e6489decd594fc7c77fb36cd4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55ae1a4e6489decd594fc7c77fb36cd4">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_elementwise_mul_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aaa297ab58f55125d7eb7b040cc4c254b">fbgemm_gpu::jagged_dense_elementwise_mul_forward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__index__add__2d__forward_8cu.html b/jagged__index__add__2d__forward_8cu.html
new file mode 100644
index 000000000..0f8cca4c2
--- /dev/null
+++ b/jagged__index__add__2d__forward_8cu.html
@@ -0,0 +1,144 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_index_add_2d_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_index_add_2d_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a53a6da74de342260dcb15c68e9bddfd6" id="r_a53a6da74de342260dcb15c68e9bddfd6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6">jagged_index_add_2d_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_input_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>)</td></tr>
+<tr class="separator:a53a6da74de342260dcb15c68e9bddfd6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a6fbf3dbceb513f8dfa17d68303b4e1f1" name="a6fbf3dbceb513f8dfa17d68303b4e1f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6fbf3dbceb513f8dfa17d68303b4e1f1">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_index_add_2d_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6">fbgemm_gpu::jagged_index_add_2d_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__index__select__2d__forward_8cu.html b/jagged__index__select__2d__forward_8cu.html
new file mode 100644
index 000000000..ff06852e1
--- /dev/null
+++ b/jagged__index__select__2d__forward_8cu.html
@@ -0,0 +1,144 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_index_select_2d_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_index_select_2d_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:acb5a744fbd29c8a3a25621c2850686c1" id="r_acb5a744fbd29c8a3a25621c2850686c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1">jagged_index_select_2d_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_output_rows</a>)</td></tr>
+<tr class="separator:acb5a744fbd29c8a3a25621c2850686c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a769ab9425e6b9229e5197a606072f7f7" name="a769ab9425e6b9229e5197a606072f7f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a769ab9425e6b9229e5197a606072f7f7">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_index_select_2d_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1">fbgemm_gpu::jagged_index_select_2d_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__jagged__bmm__forward_8cu.html b/jagged__jagged__bmm__forward_8cu.html
new file mode 100644
index 000000000..9b2b1ba00
--- /dev/null
+++ b/jagged__jagged__bmm__forward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_jagged_bmm_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_jagged_bmm_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad970c4b273bd75194ccced952b277f40" name="ad970c4b273bd75194ccced952b277f40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad970c4b273bd75194ccced952b277f40">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_jagged_bmm_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a0793a1a7b328d1351b6036d0be6a9c3d">fbgemm_gpu::jagged_jagged_bmm_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__softmax__backward_8cu.html b/jagged__softmax__backward_8cu.html
new file mode 100644
index 000000000..8d3f75f00
--- /dev/null
+++ b/jagged__softmax__backward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_softmax_backward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_softmax_backward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af86af3150ade27ed65bffd51e7fd389a" name="af86af3150ade27ed65bffd51e7fd389a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af86af3150ade27ed65bffd51e7fd389a">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_softmax_backward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a305d9969e73060e49580aab1456ceb35">fbgemm_gpu::jagged_softmax_backward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__softmax__forward_8cu.html b/jagged__softmax__forward_8cu.html
new file mode 100644
index 000000000..289566815
--- /dev/null
+++ b/jagged__softmax__forward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_softmax_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_softmax_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad64b64d7d37e8e47389d74bbb5b9287f" name="ad64b64d7d37e8e47389d74bbb5b9287f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad64b64d7d37e8e47389d74bbb5b9287f">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_softmax_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ab117510dd56fd42f3d774d22633b107f">fbgemm_gpu::jagged_softmax_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__tensor__ops_2common_8cuh.html b/jagged__tensor__ops_2common_8cuh.html
new file mode 100644
index 000000000..d69d14e8b
--- /dev/null
+++ b/jagged__tensor__ops_2common_8cuh.html
@@ -0,0 +1,244 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/common.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Dispatch.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &lt;cub/cub.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  {                                                                           \</div>
+<div class="line">    std::vector&lt;Tensor&gt; x_offsets_contig;                                     \</div>
+<div class="line">    x_offsets_contig.resize(num_jagged_dim);                                  \</div>
+<div class="line">    <a class="code hl_struct" href="struct_stack_array.html">StackArray&lt;index_t*&gt;</a> x_offset_ptrs;                                       \</div>
+<div class="line">    x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">ndim</a> = num_jagged_dim;                                      \</div>
+<div class="line">    for (<span class="keywordtype">int</span> d = 0; d &lt; num_jagged_dim; ++d) {                                \</div>
+<div class="line">      x_offsets_contig[d] = x_offsets[d].contiguous();                        \</div>
+<div class="line">      x_offset_ptrs.<a class="code hl_variable" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">vals</a>[d] =                                                 \</div>
+<div class="line">          x_offsets_contig[d].template data_ptr&lt;index_t&gt;();                   \</div>
+<div class="line">    }                                                                         \</div>
+<div class="line">    jagged_dense_elementwise_dense_output_kernel_&lt;NUM_JAGGED_DIM, index_t&gt;    \</div>
+<div class="line">        &lt;&lt;&lt;blocks, threads, 0, at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(           \</div>
+<div class="line">            x_values.packed_accessor32&lt;scalar_t, 2, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">            x_offset_ptrs,                                                    \</div>
+<div class="line">            y_reshaped                                                        \</div>
+<div class="line">                .packed_accessor32&lt;scalar_t, 3, at::RestrictPtrTraits&gt;(),     \</div>
+<div class="line">            output_reshaped                                                   \</div>
+<div class="line">                .packed_accessor32&lt;scalar_t, 3, at::RestrictPtrTraits&gt;(),     \</div>
+<div class="line">            jagged_dims_tensor,                                               \</div>
+<div class="line">            f,                                                                \</div>
+<div class="line">            padding_value);                                                   \</div>
+<div class="line">  }</div>
+<div class="ttc" id="astruct_stack_array_html"><div class="ttname"><a href="struct_stack_array.html">StackArray</a></div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:446</div></div>
+<div class="ttc" id="astruct_stack_array_html_a7cff664dfb347e3967c24b7c4ebe0fa9"><div class="ttname"><a href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">StackArray::ndim</a></div><div class="ttdeci">size_t ndim</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:448</div></div>
+<div class="ttc" id="astruct_stack_array_html_a9f80f8c0a4403726aa06af2340127ce3"><div class="ttname"><a href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">StackArray::vals</a></div><div class="ttdeci">T vals[kStackArrayMaxDims]</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:447</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a4f36f56fa6a995a4ad013e16ba311b31" name="a4f36f56fa6a995a4ad013e16ba311b31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f36f56fa6a995a4ad013e16ba311b31">&#9670;&#160;</a></span>[]</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">union  { ... } ::VecType32::Data data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac6142811afa7f90ec76eae1bc05da82b" name="ac6142811afa7f90ec76eae1bc05da82b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6142811afa7f90ec76eae1bc05da82b">&#9670;&#160;</a></span>half4</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">half4</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a93d30ba34e45e42dfd6b2547b1652cb6" name="a93d30ba34e45e42dfd6b2547b1652cb6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93d30ba34e45e42dfd6b2547b1652cb6">&#9670;&#160;</a></span>half8</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">half8</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d162c8b2172ea2cb7a10852acacc635" name="a7d162c8b2172ea2cb7a10852acacc635"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d162c8b2172ea2cb7a10852acacc635">&#9670;&#160;</a></span>mask</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TType mask</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34f893695235597b772faca329b14963" name="a34f893695235597b772faca329b14963"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34f893695235597b772faca329b14963">&#9670;&#160;</a></span>val</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__half2 val</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__tensor__ops_8cu.html b/jagged__tensor__ops_8cu.html
new file mode 100644
index 000000000..487bcdadf
--- /dev/null
+++ b/jagged__tensor__ops_8cu.html
@@ -0,0 +1,375 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_tensor_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">jagged_tensor_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a83e06ed43d316e587c86bd1b83a233a8" name="a83e06ed43d316e587c86bd1b83a233a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83e06ed43d316e587c86bd1b83a233a8">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;batched_dense_vec_jagged_2d_mul&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga67afdd148d57be07278c9cb088b5ff4b">fbgemm_gpu::batched_dense_vec_jagged_2d_mul</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae9145e7dc8cdcfab08478c78e11806ee" name="ae9145e7dc8cdcfab08478c78e11806ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae9145e7dc8cdcfab08478c78e11806ee">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;dense_to_jagged&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#gae25fa8a028fc083f06e445e1d2ebb208">fbgemm_gpu::dense_to_jagged</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a65d954fda4f3313d036b22b3232872" name="a5a65d954fda4f3313d036b22b3232872"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a65d954fda4f3313d036b22b3232872">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_1d_to_dense&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga93b5edf03f38d8eaf9a0f1ece0bc1af7">fbgemm_gpu::jagged_1d_to_dense</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a84c5e68f36966340db42aa25785290df" name="a84c5e68f36966340db42aa25785290df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84c5e68f36966340db42aa25785290df">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_2d_to_dense&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#gaaa301b81a22a3d823ba5e65828093113">fbgemm_gpu::jagged_2d_to_dense</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a48e6bd6975582a7ce4ceff6712fa6ef9" name="a48e6bd6975582a7ce4ceff6712fa6ef9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48e6bd6975582a7ce4ceff6712fa6ef9">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[5/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_bmm&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aed181c3885f392fec8c38cdf10266d68">fbgemm_gpu::jagged_dense_bmm</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f366150fd0ce1400047ea614232e9f8" name="a4f366150fd0ce1400047ea614232e9f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f366150fd0ce1400047ea614232e9f8">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[6/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_dense_elementwise_add_jagged_output&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a47e4d714a08316066470d979f97f1d81">fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a63e1ce09a4f40dd4f79b7ceb985b2faf" name="a63e1ce09a4f40dd4f79b7ceb985b2faf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a63e1ce09a4f40dd4f79b7ceb985b2faf">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[7/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_elementwise_add&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">fbgemm_gpu::jagged_dense_elementwise_add</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd6b82766bc27ff6c2e957e57ec2947e" name="afd6b82766bc27ff6c2e957e57ec2947e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd6b82766bc27ff6c2e957e57ec2947e">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[8/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_elementwise_mul&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga5521ad46f5bab0d77c8bb036742f455d">fbgemm_gpu::jagged_dense_elementwise_mul</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56fea1ad733f259a42c89661e1bf2637" name="a56fea1ad733f259a42c89661e1bf2637"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56fea1ad733f259a42c89661e1bf2637">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[9/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_jagged_bmm&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae94c97196a7c392695b64f0db906ff4c">fbgemm_gpu::jagged_jagged_bmm</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b3f90be325532b25c5df0c87c15e083" name="a6b3f90be325532b25c5df0c87c15e083"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b3f90be325532b25c5df0c87c15e083">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[10/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_softmax&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a069ed261b53e7051b85f3e572cad7f7e">fbgemm_gpu::jagged_softmax</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af36ae71857641f82f406e9d03287e165" name="af36ae71857641f82f406e9d03287e165"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af36ae71857641f82f406e9d03287e165">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[11/11]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_to_padded_dense&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga6d19e2c055144e4fe59b06999be34670">fbgemm_gpu::jagged_to_padded_dense</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__tensor__ops__autograd_8cpp.html b/jagged__tensor__ops__autograd_8cpp.html
new file mode 100644
index 000000000..f6bf1fe2a
--- /dev/null
+++ b/jagged__tensor__ops__autograd_8cpp.html
@@ -0,0 +1,168 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_tensor_ops_autograd.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_tensor_ops_autograd.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/TensorUtils.h&gt;</code><br />
+<code>#include &lt;ATen/core/dispatch/Dispatcher.h&gt;</code><br />
+<code>#include &lt;c10/core/SymIntArrayRef.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &lt;torch/torch.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gaa797caaa08c70857433ae987d9cf30d7" id="r_gaa797caaa08c70857433ae987d9cf30d7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">jagged_dense_elementwise_add</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:gaa797caaa08c70857433ae987d9cf30d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga1290f40c3ba39837dd009c3006353d7c" id="r_ga1290f40c3ba39837dd009c3006353d7c"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c">jagged_dense_elementwise_add_jagged_output</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:ga1290f40c3ba39837dd009c3006353d7c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aca95193cb0cc3db7030f18cb59c6cc33" id="r_aca95193cb0cc3db7030f18cb59c6cc33"><td class="memItemLeft" align="right" valign="top">std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#aca95193cb0cc3db7030f18cb59c6cc33">jagged_index_select_2d</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>)</td></tr>
+<tr class="separator:aca95193cb0cc3db7030f18cb59c6cc33"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a89761ba0ed893bf88bdfdd1f6d15bc65" name="a89761ba0ed893bf88bdfdd1f6d15bc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89761ba0ed893bf88bdfdd1f6d15bc65">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Autograd</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5eca359a14102dd9fcab1f8e80594472" name="a5eca359a14102dd9fcab1f8e80594472"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5eca359a14102dd9fcab1f8e80594472">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CompositeImplicitAutograd</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__tensor__ops__cpu_8cpp.html b/jagged__tensor__ops__cpu_8cpp.html
new file mode 100644
index 000000000..d648a2fdd
--- /dev/null
+++ b/jagged__tensor__ops__cpu_8cpp.html
@@ -0,0 +1,276 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_tensor_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_tensor_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/core/dispatch/Dispatcher.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;ATen/Parallel.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a71a54a14d90862afc8e5fe03e0c9ed8f" id="r_a71a54a14d90862afc8e5fe03e0c9ed8f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a71a54a14d90862afc8e5fe03e0c9ed8f">jagged_index_select_2d_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_output_rows</a>)</td></tr>
+<tr class="separator:a71a54a14d90862afc8e5fe03e0c9ed8f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af80524a7d454f6db1c478808e8a659a6" id="r_af80524a7d454f6db1c478808e8a659a6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#af80524a7d454f6db1c478808e8a659a6">jagged_index_add_2d_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_input_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>)</td></tr>
+<tr class="separator:af80524a7d454f6db1c478808e8a659a6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4e6521d00a6f81ad8ad7f7d38eef1aea" id="r_a4e6521d00a6f81ad8ad7f7d38eef1aea"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a4e6521d00a6f81ad8ad7f7d38eef1aea">jagged_slice_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_start</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">tgt_start</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">slice_length</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fill_zeros</a>)</td></tr>
+<tr class="separator:a4e6521d00a6f81ad8ad7f7d38eef1aea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">if</span> (y.size(-1) == 1) {                                            \</div>
+<div class="line">    jagged_dense_elementwise_dense_output_kernel_&lt;                  \</div>
+<div class="line">        NUM_JAGGED_DIM,                                             \</div>
+<div class="line">        <span class="keyword">true</span>,                                                       \</div>
+<div class="line">        index_t&gt;(x_values, x_offsets, y, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, f, padding_value); \</div>
+<div class="line">  } <span class="keywordflow">else</span> {                                                          \</div>
+<div class="line">    jagged_dense_elementwise_dense_output_kernel_&lt;                  \</div>
+<div class="line">        NUM_JAGGED_DIM,                                             \</div>
+<div class="line">        <span class="keyword">false</span>,                                                      \</div>
+<div class="line">        index_t&gt;(x_values, x_offsets, y, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, f, padding_value); \</div>
+<div class="line">  }</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">if</span> (y.size(-1) == 1) {                                     \</div>
+<div class="line">    jagged_dense_elementwise_jagged_output_kernel_&lt;          \</div>
+<div class="line">        NUM_JAGGED_DIM,                                      \</div>
+<div class="line">        <span class="keyword">true</span>,                                                \</div>
+<div class="line">        index_t,                                             \</div>
+<div class="line">        scalar_t&gt;(x_values, x_offsets, y, output_values, f); \</div>
+<div class="line">  } <span class="keywordflow">else</span> {                                                   \</div>
+<div class="line">    jagged_dense_elementwise_jagged_output_kernel_&lt;          \</div>
+<div class="line">        NUM_JAGGED_DIM,                                      \</div>
+<div class="line">        <span class="keyword">false</span>,                                               \</div>
+<div class="line">        index_t,                                             \</div>
+<div class="line">        scalar_t&gt;(x_values, x_offsets, y, output_values, f); \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ac4adf873a2fdf50491e9cc9647e3f6cc" name="ac4adf873a2fdf50491e9cc9647e3f6cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4adf873a2fdf50491e9cc9647e3f6cc">&#9670;&#160;</a></span>INVOKE_KERNEL_WITH_DIM <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_KERNEL_WITH_DIM</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NUM_JAGGED_DIM</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">if</span> (<a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>.size(-1) == 1) {                                              \</div>
+<div class="line">    jagged_jagged_elementwise_dense_output_kernel_&lt;                        \</div>
+<div class="line">        NUM_JAGGED_DIM,                                                    \</div>
+<div class="line">        <span class="keyword">true</span>,                                                              \</div>
+<div class="line">        index_t&gt;(x_values, x_offsets, y_values, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, f, padding_value); \</div>
+<div class="line">  } <span class="keywordflow">else</span> {                                                                 \</div>
+<div class="line">    jagged_jagged_elementwise_dense_output_kernel_&lt;                        \</div>
+<div class="line">        NUM_JAGGED_DIM,                                                    \</div>
+<div class="line">        <span class="keyword">false</span>,                                                             \</div>
+<div class="line">        index_t&gt;(x_values, x_offsets, y_values, <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>, f, padding_value); \</div>
+<div class="line">  }</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa138561d0eb99d73b2bf9586b84e7c46" name="aa138561d0eb99d73b2bf9586b84e7c46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa138561d0eb99d73b2bf9586b84e7c46">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CompositeExplicitAutograd</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26b96ceaa00c9be7dbba99ca0b772a58" name="a26b96ceaa00c9be7dbba99ca0b772a58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26b96ceaa00c9be7dbba99ca0b772a58">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__tensor__ops__meta_8cpp.html b/jagged__tensor__ops__meta_8cpp.html
new file mode 100644
index 000000000..5c9d697c7
--- /dev/null
+++ b/jagged__tensor__ops__meta_8cpp.html
@@ -0,0 +1,128 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_tensor_ops_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_tensor_ops_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__to__padded__dense__backward_8cu.html b/jagged__to__padded__dense__backward_8cu.html
new file mode 100644
index 000000000..38e364590
--- /dev/null
+++ b/jagged__to__padded__dense__backward_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_to_padded_dense_backward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_to_padded_dense_backward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a0ec346f5fe59608b8e13809432c9a389" name="a0ec346f5fe59608b8e13809432c9a389"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ec346f5fe59608b8e13809432c9a389">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_to_padded_dense_backward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a861454c4383e6a0869a6c007fc498eed">fbgemm_gpu::jagged_to_padded_dense_backward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__to__padded__dense__forward_8cu.html b/jagged__to__padded__dense__forward_8cu.html
new file mode 100644
index 000000000..5e0fe9d5f
--- /dev/null
+++ b/jagged__to__padded__dense__forward_8cu.html
@@ -0,0 +1,277 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_to_padded_dense_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">jagged_to_padded_dense_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gad34ac20d2c9be5a6489c8e8befff7938" id="r_gad34ac20d2c9be5a6489c8e8befff7938"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">jagged_dense_elementwise_add_jagged_output_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:gad34ac20d2c9be5a6489c8e8befff7938"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a65d732670fec1bee849caf445b2903e7" name="a65d732670fec1bee849caf445b2903e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65d732670fec1bee849caf445b2903e7">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_dense_elementwise_add_jagged_output&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">fbgemm_gpu::jagged_dense_elementwise_add_jagged_output_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1526839450b4cbf68a2d6a70673e273a" name="a1526839450b4cbf68a2d6a70673e273a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1526839450b4cbf68a2d6a70673e273a">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_to_padded_dense_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__jagged-tensor-ops-cuda.html#gaffad7e38f6faf5f8365784fbf82a26f5">fbgemm_gpu::jagged_to_padded_dense_forward</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9797a098549c8193d6beb70cb5d7da4f" name="a9797a098549c8193d6beb70cb5d7da4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9797a098549c8193d6beb70cb5d7da4f">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;stacked_jagged_1d_to_dense&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#adf7f39b1a3dd7c2797fd11e740d6269f">fbgemm_gpu::stacked_jagged_1d_to_dense_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a84d4e43e8339a03b14fe872dd3b2d50a" name="a84d4e43e8339a03b14fe872dd3b2d50a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84d4e43e8339a03b14fe872dd3b2d50a">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;stacked_jagged_2d_to_dense&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aaac575e676d094aba1367e9eaf3489bc">fbgemm_gpu::stacked_jagged_2d_to_dense_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a53264bb9ade4d2796b87a966ab450c" name="a1a53264bb9ade4d2796b87a966ab450c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a53264bb9ade4d2796b87a966ab450c">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;stacked_jagged_2d_to_dense_backward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a442efbf57b46780a07ac4759ac1866ee">fbgemm_gpu::stacked_jagged_2d_to_dense_backward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61110a1a4f03edaa3322b245624b294e" name="a61110a1a4f03edaa3322b245624b294e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61110a1a4f03edaa3322b245624b294e">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;stacked_jagged_2d_to_dense_forward&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a5de1d5c177df840f2fa7ab0cdda2aa02">fbgemm_gpu::stacked_jagged_2d_to_dense_forward_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/jagged__unique__indices_8cu.html b/jagged__unique__indices_8cu.html
new file mode 100644
index 000000000..1efb567b3
--- /dev/null
+++ b/jagged__unique__indices_8cu.html
@@ -0,0 +1,164 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/jagged_unique_indices.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">jagged_unique_indices.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aaf228a3ce26c3ae9c749573883b59be5" name="aaf228a3ce26c3ae9c749573883b59be5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf228a3ce26c3ae9c749573883b59be5">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_hash_size_cumsum&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aabd8b530d0ac7e5cb96cf19c7eb517e9">fbgemm_gpu::jagged_hash_size_cumsum_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a674314745cbd8dd913142d0660083851" name="a674314745cbd8dd913142d0660083851"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a674314745cbd8dd913142d0660083851">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;jagged_unique_indices&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a006273b56cd5a2efd001ad71d801a551">fbgemm_gpu::jagged_unique_indices_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/keyed__jagged__index__select__dim1_8cu.html b/keyed__jagged__index__select__dim1_8cu.html
new file mode 100644
index 000000000..58d50bfef
--- /dev/null
+++ b/keyed__jagged__index__select__dim1_8cu.html
@@ -0,0 +1,194 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/keyed_jagged_index_select_dim1.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">keyed_jagged_index_select_dim1.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="jagged__tensor__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a2ffb148e7bce97b5375e01ac265cc967" name="a2ffb148e7bce97b5375e01ac265cc967"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ffb148e7bce97b5375e01ac265cc967">&#9670;&#160;</a></span>LAUNCH_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define LAUNCH_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHTED, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHT_TYPE, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">OUTPUT_WEIGHTS, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">WEIGHTS</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  {                                                                          \</div>
+<div class="line">    keyed_jagged_index_select_dim1_kernel&lt;                                   \</div>
+<div class="line">        value_t,                                                             \</div>
+<div class="line">        index_t,                                                             \</div>
+<div class="line">        offset_t,                                                            \</div>
+<div class="line">        WEIGHT_TYPE,                                                         \</div>
+<div class="line">        WEIGHTED&gt;                                                            \</div>
+<div class="line">        &lt;&lt;&lt;grid_size, kMaxThreads, 0, at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(   \</div>
+<div class="line">            <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>.packed_accessor64&lt;value_t, 1, at::RestrictPtrTraits&gt;(),   \</div>
+<div class="line">            OUTPUT_WEIGHTS                                                   \</div>
+<div class="line">                .packed_accessor64&lt;WEIGHT_TYPE, 1, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">            values.packed_accessor64&lt;value_t, 1, at::RestrictPtrTraits&gt;(),   \</div>
+<div class="line">            WEIGHTS                                                          \</div>
+<div class="line">                .packed_accessor64&lt;WEIGHT_TYPE, 1, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">            <a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>.packed_accessor32&lt;offset_t, 1, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">            <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>.packed_accessor32&lt;index_t, 1, at::RestrictPtrTraits&gt;(),  \</div>
+<div class="line">            output_offsets_contig                                            \</div>
+<div class="line">                -&gt;packed_accessor32&lt;offset_t, 1, at::RestrictPtrTraits&gt;(),   \</div>
+<div class="line">            num_batches,                                                     \</div>
+<div class="line">            batch_size);                                                     \</div>
+<div class="line">  }</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_acbf20500022fb5f972956bea423a05ff"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:123</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_aff2584a62b3409906c19c5419a4cc647"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:104</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a69db0b3f600c7c45db29069cd05d3bea" name="a69db0b3f600c7c45db29069cd05d3bea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69db0b3f600c7c45db29069cd05d3bea">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;keyed_jagged_index_select_dim1&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a50a64d97045199097d3ff83edaf56a1a">fbgemm_gpu::keyed_jagged_index_select_dim_1_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/layout__transform__ops_8cu.html b/layout__transform__ops_8cu.html
new file mode 100644
index 000000000..a750b50e2
--- /dev/null
+++ b/layout__transform__ops_8cu.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/layout_transform_ops/layout_transform_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_897ef76b26d94e0feb8fb6e0621cd742.html">layout_transform_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">layout_transform_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;ATen/Parallel.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="layout__transform__ops_8cuh.html">fbgemm_gpu/layout_transform_ops.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/layout__transform__ops_8cuh.html b/layout__transform__ops_8cuh.html
new file mode 100644
index 000000000..2e7c04572
--- /dev/null
+++ b/layout__transform__ops_8cuh.html
@@ -0,0 +1,191 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/layout_transform_ops.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">layout_transform_ops.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">./fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="acf1671783450ed8e673d22cbc1d917b5" name="acf1671783450ed8e673d22cbc1d917b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf1671783450ed8e673d22cbc1d917b5">&#9670;&#160;</a></span>permute_pooled_embs_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename scalar_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void permute_pooled_embs_kernel </td>
+          <td>(</td>
+          <td class="paramtype">const scalar_t *__restrict__</td>          <td class="paramname"><span class="paramname"><em>go</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">scalar_t *__restrict__</td>          <td class="paramname"><span class="paramname"><em>sgo</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>dim_sum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f3c62685f843be282e18a9805d8ad5c" name="a2f3c62685f843be282e18a9805d8ad5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f3c62685f843be282e18a9805d8ad5c">&#9670;&#160;</a></span>recat_copy_async_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename scalar_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void recat_copy_async_kernel </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__</td>          <td class="paramname"><span class="paramname"><em>dim_sum_per_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *__restrict__</td>          <td class="paramname"><span class="paramname"><em>cum_dim_sum_per_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const scalar_t *__restrict__</td>          <td class="paramname"><span class="paramname"><em>go</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">scalar_t *__restrict__</td>          <td class="paramname"><span class="paramname"><em>sgo</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>dim_sum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/layout__transform__ops__cpu_8cpp.html b/layout__transform__ops__cpu_8cpp.html
new file mode 100644
index 000000000..12cf69d4e
--- /dev/null
+++ b/layout__transform__ops__cpu_8cpp.html
@@ -0,0 +1,164 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/layout_transform_ops/layout_transform_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_897ef76b26d94e0feb8fb6e0621cd742.html">layout_transform_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">layout_transform_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;ATen/Parallel.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26b96ceaa00c9be7dbba99ca0b772a58" name="a26b96ceaa00c9be7dbba99ca0b772a58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26b96ceaa00c9be7dbba99ca0b772a58">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/layout__transform__ops__gpu_8cpp.html b/layout__transform__ops__gpu_8cpp.html
new file mode 100644
index 000000000..6a16e62b0
--- /dev/null
+++ b/layout__transform__ops__gpu_8cpp.html
@@ -0,0 +1,119 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/layout_transform_ops/layout_transform_ops_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_897ef76b26d94e0feb8fb6e0621cd742.html">layout_transform_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">layout_transform_ops_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a257a9d9e0a71b3a1299af6ef9c6c3a78" name="a257a9d9e0a71b3a1299af6ef9c6c3a78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a257a9d9e0a71b3a1299af6ef9c6c3a78">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lfu__cache__find_8cu.html b/lfu__cache__find_8cu.html
new file mode 100644
index 000000000..90a9b2a0b
--- /dev/null
+++ b/lfu__cache__find_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lfu_cache_find.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">lfu_cache_find.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lfu__cache__populate_8cu.html b/lfu__cache__populate_8cu.html
new file mode 100644
index 000000000..5a6401060
--- /dev/null
+++ b/lfu__cache__populate_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lfu_cache_populate.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">lfu_cache_populate.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga854b8951ef7e78da812be97041d7d2dc" id="r_ga854b8951ef7e78da812be97041d7d2dc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
+<tr class="separator:ga854b8951ef7e78da812be97041d7d2dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lfu__cache__populate__byte_8cpp.html b/lfu__cache__populate__byte_8cpp.html
new file mode 100644
index 000000000..053068a9f
--- /dev/null
+++ b/lfu__cache__populate__byte_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lfu_cache_populate_byte.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">lfu_cache_populate_byte.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lfu__cache__populate__byte_8cu.html b/lfu__cache__populate__byte_8cu.html
new file mode 100644
index 000000000..7ecc43285
--- /dev/null
+++ b/lfu__cache__populate__byte_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lfu_cache_populate_byte.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">lfu_cache_populate_byte.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga2b76a0cf452f00e77696d896d7a402f3" id="r_ga2b76a0cf452f00e77696d896d7a402f3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>)</td></tr>
+<tr class="separator:ga2b76a0cf452f00e77696d896d7a402f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/linearize__cache__indices_8cpp.html b/linearize__cache__indices_8cpp.html
new file mode 100644
index 000000000..7858d69fa
--- /dev/null
+++ b/linearize__cache__indices_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/linearize_cache_indices.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">linearize_cache_indices.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/linearize__cache__indices_8cu.html b/linearize__cache__indices_8cu.html
new file mode 100644
index 000000000..ef506c7e9
--- /dev/null
+++ b/linearize__cache__indices_8cu.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/linearize_cache_indices.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">linearize_cache_indices.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga23e7545e51b296d9b72c86f37c360dc6" id="r_ga23e7545e51b296d9b72c86f37c360dc6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>)</td></tr>
+<tr class="separator:ga23e7545e51b296d9b72c86f37c360dc6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6eed85d3e9b5dbef8a753bb81c2d6e05" id="r_ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices_from_row_idx_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>)</td></tr>
+<tr class="separator:ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga4887151424a90cfd0abef174a4e91f3f" id="r_ga4887151424a90cfd0abef174a4e91f3f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">get_unique_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_indices</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">compute_count</a>)</td></tr>
+<tr class="separator:ga4887151424a90cfd0abef174a4e91f3f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lru__cache__find_8cu.html b/lru__cache__find_8cu.html
new file mode 100644
index 000000000..23449bc14
--- /dev/null
+++ b/lru__cache__find_8cu.html
@@ -0,0 +1,143 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lru_cache_find.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">lru_cache_find.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga76807cfe283a9e8f258818f3f439e6cd" id="r_ga76807cfe283a9e8f258818f3f439e6cd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::pair&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find_uncached_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices_length</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">time_stamp</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lru_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">gather_cache_stats</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uvm_cache_stats</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lock_cache_line</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>)</td></tr>
+<tr class="separator:ga76807cfe283a9e8f258818f3f439e6cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8a80ce6ea3d62b9f22ac391767b34538" name="a8a80ce6ea3d62b9f22ac391767b34538"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a80ce6ea3d62b9f22ac391767b34538">&#9670;&#160;</a></span>emulate_cache_miss()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> emulate_cache_miss </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>enforced_misses_per_256</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lru__cache__populate_8cu.html b/lru__cache__populate_8cu.html
new file mode 100644
index 000000000..740c24681
--- /dev/null
+++ b/lru__cache__populate_8cu.html
@@ -0,0 +1,195 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lru_cache_populate.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">lru_cache_populate.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab841aec9d8660e547e492948a2ee9921" name="ab841aec9d8660e547e492948a2ee9921"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab841aec9d8660e547e492948a2ee9921">&#9670;&#160;</a></span>lru_cache_populate_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lru_cache_populate_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>lock_cache_line</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locking_counter</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lru__cache__populate__byte_8cpp.html b/lru__cache__populate__byte_8cpp.html
new file mode 100644
index 000000000..a03028e76
--- /dev/null
+++ b/lru__cache__populate__byte_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lru_cache_populate_byte.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">lru_cache_populate_byte.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lru__cache__populate__byte_8cu.html b/lru__cache__populate__byte_8cu.html
new file mode 100644
index 000000000..982234513
--- /dev/null
+++ b/lru__cache__populate__byte_8cu.html
@@ -0,0 +1,281 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lru_cache_populate_byte.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">lru_cache_populate_byte.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab944b6f7e1df36b8ef0c4a911c1b0afb" name="ab944b6f7e1df36b8ef0c4a911c1b0afb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab944b6f7e1df36b8ef0c4a911c1b0afb">&#9670;&#160;</a></span>direct_mapped_lru_cache_populate_byte_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> direct_mapped_lru_cache_populate_byte_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_miss_timestamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53a2183d85282ab5726018767388efe8" name="a53a2183d85282ab5726018767388efe8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53a2183d85282ab5726018767388efe8">&#9670;&#160;</a></span>lru_cache_populate_byte_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lru_cache_populate_byte_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lxu__cache_8cpp.html b/lxu__cache_8cpp.html
new file mode 100644
index 000000000..628e0d646
--- /dev/null
+++ b/lxu__cache_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lxu_cache.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">lxu_cache.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/lxu__cache_8cu.html b/lxu__cache_8cu.html
new file mode 100644
index 000000000..8c5f69a23
--- /dev/null
+++ b/lxu__cache_8cu.html
@@ -0,0 +1,240 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/lxu_cache.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">lxu_cache.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga920da453c443675fc7fbc9d68e272a61" id="r_ga920da453c443675fc7fbc9d68e272a61"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">host_lxu_cache_slot</a> (<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">h_in</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C</a>)</td></tr>
+<tr class="separator:ga920da453c443675fc7fbc9d68e272a61"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2b055aeb5bf2d99bfb4351271764cab1" id="r_ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache_flush_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_D</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
+<tr class="separator:ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaeaf8f13290f0fe389fefa3fc2a944311" id="r_gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache_locking_counter_decrement_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>)</td></tr>
+<tr class="separator:gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a083f4fd1219188cc40036595fa6921ab" id="r_a083f4fd1219188cc40036595fa6921ab"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a083f4fd1219188cc40036595fa6921ab">lxu_cache_lookup_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">invalid_index</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">gather_cache_stats</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uvm_cache_stats</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_uniq_cache_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locations_output</a>)</td></tr>
+<tr class="separator:a083f4fd1219188cc40036595fa6921ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9a01f6df03e867e1871df306a6289e06" name="a9a01f6df03e867e1871df306a6289e06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a01f6df03e867e1871df306a6289e06">&#9670;&#160;</a></span>direct_mapped_lxu_cache_lookup_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> direct_mapped_lxu_cache_lookup_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac602137fddc0c895b176d959fa3fa8db" name="ac602137fddc0c895b176d959fa3fa8db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac602137fddc0c895b176d959fa3fa8db">&#9670;&#160;</a></span>lxu_cache_locations_update_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lxu_cache_locations_update_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations_new</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>num_uniq_cache_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a083f4fd1219188cc40036595fa6921ab" name="a083f4fd1219188cc40036595fa6921ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a083f4fd1219188cc40036595fa6921ab">&#9670;&#160;</a></span>lxu_cache_lookup_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> lxu_cache_lookup_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>num_uniq_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations_output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Lookup the cache locations for each linear cache indices in linear_cache_indices and return lxu_cache_locations</p>
+<p>lxu_cache_locations A 1D tensor with the same length as linear_cache_indices. It contains the cache locations (the row indices in the cache) of the corresponding indices in linear_cache_indices, i.e., lxu_cache_locations[i] is the cache location for linear_cache_indices[i], where 0 &lt;= i &lt; linear_cache_indices.numel().</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">linear_cache_indices</td><td>Linear cache indices tensor (1D) </td></tr>
+    <tr><td class="paramname">lxu_cache_state</td><td>LXU cache state tensor (2D tensor of shape (# of cache sets, # of cache slots per set)). It contains linear indices of rows that are in the corresponding cache slots. If the cache slot is empty, a sentinel value is stored. </td></tr>
+    <tr><td class="paramname">invalid_index</td><td>A sentinel value for linear cache indices. A cache index is skipped if it is a sentinel value. </td></tr>
+    <tr><td class="paramname">gather_cache_stats</td><td>A flag to enable/disable cache stats collection. </td></tr>
+    <tr><td class="paramname">uvm_cache_stats</td><td>A tensor for storing cache stats. </td></tr>
+    <tr><td class="paramname">num_uniq_cache_indices</td><td>An optional GPU tensor that contains the number of unique cache indices. If this tensor is passed, the kernel will only lookup num_uniq_cache_indices number of indices instead of looking up the entire linear_cache_indices. </td></tr>
+    <tr><td class="paramname">lxu_cache_locations_output</td><td>An optional output tensor. If the tensor is passed, the operator will not allocate a new output tensor and use this tensor as an output tensor. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils_2common_8cuh.html b/memory__utils_2common_8cuh.html
new file mode 100644
index 000000000..4484a1a59
--- /dev/null
+++ b/memory__utils_2common_8cuh.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/common.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;sys/mman.h&gt;</code><br />
+<code>#include &lt;unistd.h&gt;</code><br />
+<code>#include &lt;cstring&gt;</code><br />
+<code>#include &quot;<a class="el" href="memory__utils_2common_8h.html">common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cumem__utils_8h.html">fbgemm_gpu/cumem_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="enum__utils_8h.html">fbgemm_gpu/enum_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils_2common_8h.html b/memory__utils_2common_8h.html
new file mode 100644
index 000000000..63335c801
--- /dev/null
+++ b/memory__utils_2common_8h.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/common.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils_8cpp.html b/memory__utils_8cpp.html
new file mode 100644
index 000000000..40a678324
--- /dev/null
+++ b/memory__utils_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/memory_utils.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">memory_utils.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="memory__utils_2common_8h.html">common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils_8cu.html b/memory__utils_8cu.html
new file mode 100644
index 000000000..919723d21
--- /dev/null
+++ b/memory__utils_8cu.html
@@ -0,0 +1,169 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/memory_utils.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">memory_utils.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="memory__utils_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gab708b23762a11187eb6a32a36f0e34a3" id="r_gab708b23762a11187eb6a32a36f0e34a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">new_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gab708b23762a11187eb6a32a36f0e34a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5351c6ec3de203476cf09df330455d91" id="r_ga5351c6ec3de203476cf09df330455d91"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91">new_managed_tensor_meta</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5351c6ec3de203476cf09df330455d91"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad5e0d2307667c3db5e73f0c0eec15df5" id="r_gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">new_vanilla_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5663643a8ac5de83063d0ff51bb9af17" id="r_ga5663643a8ac5de83063d0ff51bb9af17"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17">new_host_mapped_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5663643a8ac5de83063d0ff51bb9af17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6f8847537ea9ed13fc7e2e378bc79b1f" id="r_ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f">new_unified_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_host_mapped</a>)</td></tr>
+<tr class="separator:ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga05bf2c435c434904ca454c6992861cb6" id="r_ga05bf2c435c434904ca454c6992861cb6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6">uvm_storage</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga05bf2c435c434904ca454c6992861cb6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gacba28ed334d071e79c1ead1792391e9d" id="r_gacba28ed334d071e79c1ead1792391e9d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d">is_uvm_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gacba28ed334d071e79c1ead1792391e9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab5a3dab831988b1ce368ccc545b75b48" id="r_gab5a3dab831988b1ce368ccc545b75b48"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48">uvm_to_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gab5a3dab831988b1ce368ccc545b75b48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaebfedcf8e6017a6d4f6fb16b52c4c04e" id="r_gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e">uvm_to_device</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">prototype</a>)</td></tr>
+<tr class="separator:gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gae8c724e90d31245756fc4b0d975f9370" id="r_gae8c724e90d31245756fc4b0d975f9370"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370">uvm_cuda_mem_advise</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cuda_memory_advise</a>)</td></tr>
+<tr class="separator:gae8c724e90d31245756fc4b0d975f9370"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaf060db44e71e3419df6e596614ef2081" id="r_gaf060db44e71e3419df6e596614ef2081"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081">uvm_cuda_mem_prefetch_async</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, c10::optional&lt; <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">device_t</a>)</td></tr>
+<tr class="separator:gaf060db44e71e3419df6e596614ef2081"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga01301ad686f7570c21e81c122d2c7af8" id="r_ga01301ad686f7570c21e81c122d2c7af8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8">uvm_mem_advice_dont_fork</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga01301ad686f7570c21e81c122d2c7af8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga161495e682d9eac3701dca87469930db" id="r_ga161495e682d9eac3701dca87469930db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga161495e682d9eac3701dca87469930db">uvm_to_cpu_clone</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga161495e682d9eac3701dca87469930db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a96208d96b413317e110ff94d64c71ef4" name="a96208d96b413317e110ff94d64c71ef4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96208d96b413317e110ff94d64c71ef4">&#9670;&#160;</a></span>cuda_device_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int cuda_device_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbe2be78a3ee81b2e3c6821cec74e116" name="afbe2be78a3ee81b2e3c6821cec74e116"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbe2be78a3ee81b2e3c6821cec74e116">&#9670;&#160;</a></span>ptr_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void* ptr_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1aaf192027acf281933c714c085e6849" name="a1aaf192027acf281933c714c085e6849"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1aaf192027acf281933c714c085e6849">&#9670;&#160;</a></span>storage_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">Storage storage_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils__ops_8cpp.html b/memory__utils__ops_8cpp.html
new file mode 100644
index 000000000..ad57413cd
--- /dev/null
+++ b/memory__utils__ops_8cpp.html
@@ -0,0 +1,113 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/memory_utils_ops.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">memory_utils_ops.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="memory__utils_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils__ops_8cu.html b/memory__utils__ops_8cu.html
new file mode 100644
index 000000000..068f0c0e0
--- /dev/null
+++ b/memory__utils__ops_8cu.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/memory_utils_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">memory_utils_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="memory__utils_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/memory__utils__ops__cpu_8cpp.html b/memory__utils__ops__cpu_8cpp.html
new file mode 100644
index 000000000..f3f7b476b
--- /dev/null
+++ b/memory__utils__ops__cpu_8cpp.html
@@ -0,0 +1,113 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/memory_utils/memory_utils_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4b83c65efe436c76bd5bbbb817afaf6c.html">memory_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">memory_utils_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="memory__utils_2common_8h.html">common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/menu.js b/menu.js
index b0b26936a..717761d01 100644
--- a/menu.js
+++ b/menu.js
@@ -24,13 +24,12 @@
  */
 function initMenu(relPath,searchEnabled,serverSide,searchPage,search) {
   function makeTree(data,relPath) {
-    var result='';
+    let result='';
     if ('children' in data) {
       result+='<ul>';
-      for (var i in data.children) {
-        var url;
-        var link;
-        link = data.children[i].url;
+      for (let i in data.children) {
+        let url;
+        const link = data.children[i].url;
         if (link.substring(0,1)=='^') {
           url = link.substring(1);
         } else {
@@ -44,7 +43,7 @@ function initMenu(relPath,searchEnabled,serverSide,searchPage,search) {
     }
     return result;
   }
-  var searchBoxHtml;
+  let searchBoxHtml;
   if (searchEnabled) {
     if (serverSide) {
       searchBoxHtml='<div id="MSearchBox" class="MSearchBoxInactive">'+
@@ -88,29 +87,28 @@ function initMenu(relPath,searchEnabled,serverSide,searchPage,search) {
   if (searchBoxHtml) {
     $('#main-menu').append('<li id="searchBoxPos2" style="float:right"></li>');
   }
-  var $mainMenuState = $('#main-menu-state');
-  var prevWidth = 0;
+  const $mainMenuState = $('#main-menu-state');
+  let prevWidth = 0;
   if ($mainMenuState.length) {
-    function initResizableIfExists() {
+    const initResizableIfExists = function() {
       if (typeof initResizable==='function') initResizable();
     }
     // animate mobile menu
-    $mainMenuState.change(function(e) {
-      var $menu = $('#main-menu');
-      var options = { duration: 250, step: initResizableIfExists };
+    $mainMenuState.change(function() {
+      const $menu = $('#main-menu');
+      let options = { duration: 250, step: initResizableIfExists };
       if (this.checked) {
-        options['complete'] = function() { $menu.css('display', 'block') };
+        options['complete'] = () => $menu.css('display', 'block');
         $menu.hide().slideDown(options);
       } else {
-        options['complete'] = function() { $menu.css('display', 'none') };
+        options['complete'] = () => $menu.css('display', 'none');
         $menu.show().slideUp(options);
       }
     });
     // set default menu visibility
-    function resetState() {
-      var $menu = $('#main-menu');
-      var $mainMenuState = $('#main-menu-state');
-      var newWidth = $(window).outerWidth();
+    const resetState = function() {
+      const $menu = $('#main-menu');
+      const newWidth = $(window).outerWidth();
       if (newWidth!=prevWidth) {
         if ($(window).outerWidth()<768) {
           $mainMenuState.prop('checked',false); $menu.hide();
diff --git a/menudata.js b/menudata.js
index cf57d9b01..de1883c28 100644
--- a/menudata.js
+++ b/menudata.js
@@ -27,4 +27,164 @@ var menudata={children:[
 {text:"Topics",url:"topics.html"},
 {text:"Classes",url:"annotated.html",children:[
 {text:"Class List",url:"annotated.html"},
-{text:"Class Index",url:"classes.html"}]}]}
+{text:"Class Index",url:"classes.html"},
+{text:"Class Hierarchy",url:"hierarchy.html"},
+{text:"Class Members",url:"functions.html",children:[
+{text:"All",url:"functions.html",children:[
+{text:"a",url:"functions.html#index_a"},
+{text:"b",url:"functions_b.html#index_b"},
+{text:"c",url:"functions_c.html#index_c"},
+{text:"d",url:"functions_d.html#index_d"},
+{text:"e",url:"functions_e.html#index_e"},
+{text:"f",url:"functions_f.html#index_f"},
+{text:"g",url:"functions_g.html#index_g"},
+{text:"h",url:"functions_h.html#index_h"},
+{text:"i",url:"functions_i.html#index_i"},
+{text:"l",url:"functions_l.html#index_l"},
+{text:"m",url:"functions_m.html#index_m"},
+{text:"n",url:"functions_n.html#index_n"},
+{text:"o",url:"functions_o.html#index_o"},
+{text:"p",url:"functions_p.html#index_p"},
+{text:"r",url:"functions_r.html#index_r"},
+{text:"s",url:"functions_s.html#index_s"},
+{text:"t",url:"functions_t.html#index_t"},
+{text:"v",url:"functions_v.html#index_v"},
+{text:"w",url:"functions_w.html#index_w"},
+{text:"x",url:"functions_x.html#index_x"},
+{text:"~",url:"functions_~.html#index__7E"}]},
+{text:"Functions",url:"functions_func.html",children:[
+{text:"a",url:"functions_func.html#index_a"},
+{text:"b",url:"functions_func_b.html#index_b"},
+{text:"c",url:"functions_func_c.html#index_c"},
+{text:"d",url:"functions_func_d.html#index_d"},
+{text:"e",url:"functions_func_e.html#index_e"},
+{text:"f",url:"functions_func_f.html#index_f"},
+{text:"g",url:"functions_func_g.html#index_g"},
+{text:"i",url:"functions_func_i.html#index_i"},
+{text:"l",url:"functions_func_l.html#index_l"},
+{text:"m",url:"functions_func_m.html#index_m"},
+{text:"o",url:"functions_func_o.html#index_o"},
+{text:"r",url:"functions_func_r.html#index_r"},
+{text:"s",url:"functions_func_s.html#index_s"},
+{text:"t",url:"functions_func_t.html#index_t"},
+{text:"v",url:"functions_func_v.html#index_v"},
+{text:"w",url:"functions_func_w.html#index_w"},
+{text:"~",url:"functions_func_~.html#index__7E"}]},
+{text:"Variables",url:"functions_vars.html",children:[
+{text:"a",url:"functions_vars.html#index_a"},
+{text:"b",url:"functions_vars.html#index_b"},
+{text:"c",url:"functions_vars.html#index_c"},
+{text:"d",url:"functions_vars.html#index_d"},
+{text:"f",url:"functions_vars.html#index_f"},
+{text:"g",url:"functions_vars.html#index_g"},
+{text:"h",url:"functions_vars.html#index_h"},
+{text:"i",url:"functions_vars.html#index_i"},
+{text:"l",url:"functions_vars.html#index_l"},
+{text:"n",url:"functions_vars.html#index_n"},
+{text:"p",url:"functions_vars.html#index_p"},
+{text:"r",url:"functions_vars.html#index_r"},
+{text:"s",url:"functions_vars.html#index_s"},
+{text:"v",url:"functions_vars.html#index_v"},
+{text:"w",url:"functions_vars.html#index_w"},
+{text:"x",url:"functions_vars.html#index_x"}]},
+{text:"Typedefs",url:"functions_type.html"},
+{text:"Enumerator",url:"functions_eval.html"}]}]},
+{text:"Files",url:"files.html",children:[
+{text:"File List",url:"files.html"},
+{text:"File Members",url:"globals.html",children:[
+{text:"All",url:"globals.html",children:[
+{text:"_",url:"globals.html#index__5F"},
+{text:"a",url:"globals_a.html#index_a"},
+{text:"b",url:"globals_b.html#index_b"},
+{text:"c",url:"globals_c.html#index_c"},
+{text:"d",url:"globals_d.html#index_d"},
+{text:"e",url:"globals_e.html#index_e"},
+{text:"f",url:"globals_f.html#index_f"},
+{text:"g",url:"globals_g.html#index_g"},
+{text:"h",url:"globals_h.html#index_h"},
+{text:"i",url:"globals_i.html#index_i"},
+{text:"j",url:"globals_j.html#index_j"},
+{text:"k",url:"globals_k.html#index_k"},
+{text:"l",url:"globals_l.html#index_l"},
+{text:"m",url:"globals_m.html#index_m"},
+{text:"n",url:"globals_n.html#index_n"},
+{text:"o",url:"globals_o.html#index_o"},
+{text:"p",url:"globals_p.html#index_p"},
+{text:"q",url:"globals_q.html#index_q"},
+{text:"r",url:"globals_r.html#index_r"},
+{text:"s",url:"globals_s.html#index_s"},
+{text:"t",url:"globals_t.html#index_t"},
+{text:"u",url:"globals_u.html#index_u"},
+{text:"v",url:"globals_v.html#index_v"},
+{text:"w",url:"globals_w.html#index_w"},
+{text:"x",url:"globals_x.html#index_x"},
+{text:"y",url:"globals_y.html#index_y"}]},
+{text:"Functions",url:"globals_func.html",children:[
+{text:"_",url:"globals_func.html#index__5F"},
+{text:"a",url:"globals_func_a.html#index_a"},
+{text:"b",url:"globals_func_b.html#index_b"},
+{text:"c",url:"globals_func_c.html#index_c"},
+{text:"d",url:"globals_func_d.html#index_d"},
+{text:"e",url:"globals_func_e.html#index_e"},
+{text:"f",url:"globals_func_f.html#index_f"},
+{text:"g",url:"globals_func_g.html#index_g"},
+{text:"h",url:"globals_func_h.html#index_h"},
+{text:"i",url:"globals_func_i.html#index_i"},
+{text:"k",url:"globals_func_k.html#index_k"},
+{text:"l",url:"globals_func_l.html#index_l"},
+{text:"m",url:"globals_func_m.html#index_m"},
+{text:"p",url:"globals_func_p.html#index_p"},
+{text:"r",url:"globals_func_r.html#index_r"},
+{text:"s",url:"globals_func_s.html#index_s"},
+{text:"t",url:"globals_func_t.html#index_t"},
+{text:"w",url:"globals_func_w.html#index_w"}]},
+{text:"Variables",url:"globals_vars.html",children:[
+{text:"b",url:"globals_vars.html#index_b"},
+{text:"c",url:"globals_vars_c.html#index_c"},
+{text:"d",url:"globals_vars_d.html#index_d"},
+{text:"e",url:"globals_vars_e.html#index_e"},
+{text:"f",url:"globals_vars_f.html#index_f"},
+{text:"g",url:"globals_vars_g.html#index_g"},
+{text:"h",url:"globals_vars_h.html#index_h"},
+{text:"i",url:"globals_vars_i.html#index_i"},
+{text:"k",url:"globals_vars_k.html#index_k"},
+{text:"l",url:"globals_vars_l.html#index_l"},
+{text:"m",url:"globals_vars_m.html#index_m"},
+{text:"n",url:"globals_vars_n.html#index_n"},
+{text:"o",url:"globals_vars_o.html#index_o"},
+{text:"p",url:"globals_vars_p.html#index_p"},
+{text:"r",url:"globals_vars_r.html#index_r"},
+{text:"s",url:"globals_vars_s.html#index_s"},
+{text:"t",url:"globals_vars_t.html#index_t"},
+{text:"u",url:"globals_vars_u.html#index_u"},
+{text:"v",url:"globals_vars_v.html#index_v"},
+{text:"w",url:"globals_vars_w.html#index_w"}]},
+{text:"Typedefs",url:"globals_type.html",children:[
+{text:"a",url:"globals_type.html#index_a"},
+{text:"c",url:"globals_type_c.html#index_c"},
+{text:"l",url:"globals_type_l.html#index_l"},
+{text:"n",url:"globals_type_n.html#index_n"},
+{text:"o",url:"globals_type_o.html#index_o"},
+{text:"t",url:"globals_type_t.html#index_t"},
+{text:"v",url:"globals_type_v.html#index_v"}]},
+{text:"Enumerations",url:"globals_enum.html"},
+{text:"Enumerator",url:"globals_eval.html"},
+{text:"Macros",url:"globals_defs.html",children:[
+{text:"_",url:"globals_defs.html#index__5F"},
+{text:"a",url:"globals_defs_a.html#index_a"},
+{text:"c",url:"globals_defs_c.html#index_c"},
+{text:"d",url:"globals_defs_d.html#index_d"},
+{text:"f",url:"globals_defs_f.html#index_f"},
+{text:"h",url:"globals_defs_h.html#index_h"},
+{text:"i",url:"globals_defs_i.html#index_i"},
+{text:"j",url:"globals_defs_j.html#index_j"},
+{text:"l",url:"globals_defs_l.html#index_l"},
+{text:"m",url:"globals_defs_m.html#index_m"},
+{text:"n",url:"globals_defs_n.html#index_n"},
+{text:"p",url:"globals_defs_p.html#index_p"},
+{text:"q",url:"globals_defs_q.html#index_q"},
+{text:"s",url:"globals_defs_s.html#index_s"},
+{text:"t",url:"globals_defs_t.html#index_t"},
+{text:"w",url:"globals_defs_w.html#index_w"},
+{text:"x",url:"globals_defs_x.html#index_x"},
+{text:"y",url:"globals_defs_y.html#index_y"}]}]}]}]}
diff --git a/merge__pooled__embedding__ops__cpu_8cpp.html b/merge__pooled__embedding__ops__cpu_8cpp.html
new file mode 100644
index 000000000..4f3e00ce4
--- /dev/null
+++ b/merge__pooled__embedding__ops__cpu_8cpp.html
@@ -0,0 +1,164 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/merge_pooled_embedding_ops/merge_pooled_embedding_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_02a03557abfde8453507651f5e287abe.html">merge_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">merge_pooled_embedding_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;c10/core/TensorOptions.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a1ec90ab98c9d6c18099549dce392fd65" name="a1ec90ab98c9d6c18099549dce392fd65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ec90ab98c9d6c18099549dce392fd65">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;merge_pooled_embeddings&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aad2aea0289bc3c5d135846ee32e0638c">fbgemm_gpu::merge_pooled_embeddings_cpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/merge__pooled__embedding__ops__gpu_8cpp.html b/merge__pooled__embedding__ops__gpu_8cpp.html
new file mode 100644
index 000000000..34ef09d80
--- /dev/null
+++ b/merge__pooled__embedding__ops__gpu_8cpp.html
@@ -0,0 +1,147 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/merge_pooled_embedding_ops/merge_pooled_embedding_ops_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_02a03557abfde8453507651f5e287abe.html">merge_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">merge_pooled_embedding_ops_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAEvent.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/PeerToPeerAccess.h&gt;</code><br />
+<code>#include &lt;c10/core/Device.h&gt;</code><br />
+<code>#include &lt;c10/core/TensorOptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &lt;algorithm&gt;</code><br />
+<code>#include &lt;tuple&gt;</code><br />
+<code>#include &quot;<a class="el" href="merge__pooled__embeddings_8h.html">fbgemm_gpu/merge_pooled_embeddings.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="topology__utils_8h.html">fbgemm_gpu/topology_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/merge__pooled__embeddings_8h.html b/merge__pooled__embeddings_8h.html
new file mode 100644
index 000000000..b1d9b0a7c
--- /dev/null
+++ b/merge__pooled__embeddings_8h.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/merge_pooled_embeddings.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">merge_pooled_embeddings.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/metric__ops_8cu.html b/metric__ops_8cu.html
new file mode 100644
index 000000000..74ceb8bd7
--- /dev/null
+++ b/metric__ops_8cu.html
@@ -0,0 +1,192 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/metric_ops/metric_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_276218242e4c9e66d5a5475a5ec0acdc.html">metric_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">metric_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ceil_div.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;math.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &lt;algorithm&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="metric__ops_8h.html">metric_ops.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="af8d70229cb61aff5f2f2e8f1abb10440" name="af8d70229cb61aff5f2f2e8f1abb10440"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8d70229cb61aff5f2f2e8f1abb10440">&#9670;&#160;</a></span>LAUNCH_AUC_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define LAUNCH_AUC_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">pad</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">typedef</span> cub::BlockScan&lt;acc_t, NUM_THREADS_PER_BLOCK&gt; BlockScan;  \</div>
+<div class="line">  TORCH_CHECK(                                                     \</div>
+<div class="line">      <span class="keyword">sizeof</span>(BlockScan::TempStorage) +                             \</div>
+<div class="line">          ((<a class="code hl_variable" href="#a9c50cd9bc9f8be967692db87d6fdf57f">MAX_ENTRIES_PER_BLOCK</a> * 2 + 3) * <span class="keyword">sizeof</span>(acc_t)) &lt;=     \</div>
+<div class="line">      max_smem_size)                                               \</div>
+<div class="line">  auc_kernel&lt;index_t, label_t, scalar_t, acc_t, pad&gt;               \</div>
+<div class="line">      &lt;&lt;&lt;dim3(grid_size),                                          \</div>
+<div class="line">         dim3(<a class="code hl_variable" href="#ac147221d5b74086a08d3623657d16517">NUM_THREADS_PER_BLOCK</a>),                              \</div>
+<div class="line">         0,                                                        \</div>
+<div class="line">         at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(                      \</div>
+<div class="line">          <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>.data_ptr&lt;acc_t&gt;(),                                \</div>
+<div class="line">          <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>.data_ptr&lt;index_t&gt;(),                             \</div>
+<div class="line">          labels.data_ptr&lt;label_t&gt;(),                              \</div>
+<div class="line">          weights.data_ptr&lt;scalar_t&gt;(),                            \</div>
+<div class="line">          num_blocks &gt; 1 ? block_flags.data_ptr&lt;<span class="keywordtype">int</span>&gt;() : nullptr,  \</div>
+<div class="line">          num_blocks &gt; 1 ? block_sums.data_ptr&lt;acc_t&gt;() : nullptr, \</div>
+<div class="line">          num_entries,                                             \</div>
+<div class="line">          last_block_num_entries,                                  \</div>
+<div class="line">          padded_num_entries_per_block,                            \</div>
+<div class="line">          num_blocks);                                             \</div>
+<div class="line">  C10_CUDA_KERNEL_LAUNCH_CHECK();</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_acbf20500022fb5f972956bea423a05ff"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:123</div></div>
+<div class="ttc" id="ametric__ops_8cu_html_a9c50cd9bc9f8be967692db87d6fdf57f"><div class="ttname"><a href="#a9c50cd9bc9f8be967692db87d6fdf57f">MAX_ENTRIES_PER_BLOCK</a></div><div class="ttdeci">constexpr int MAX_ENTRIES_PER_BLOCK</div><div class="ttdef"><b>Definition</b> metric_ops.cu:20</div></div>
+<div class="ttc" id="ametric__ops_8cu_html_ac147221d5b74086a08d3623657d16517"><div class="ttname"><a href="#ac147221d5b74086a08d3623657d16517">NUM_THREADS_PER_BLOCK</a></div><div class="ttdeci">constexpr int NUM_THREADS_PER_BLOCK</div><div class="ttdef"><b>Definition</b> metric_ops.cu:21</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a9c50cd9bc9f8be967692db87d6fdf57f" name="a9c50cd9bc9f8be967692db87d6fdf57f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c50cd9bc9f8be967692db87d6fdf57f">&#9670;&#160;</a></span>MAX_ENTRIES_PER_BLOCK</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int MAX_ENTRIES_PER_BLOCK = 512</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac147221d5b74086a08d3623657d16517" name="ac147221d5b74086a08d3623657d16517"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac147221d5b74086a08d3623657d16517">&#9670;&#160;</a></span>NUM_THREADS_PER_BLOCK</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int NUM_THREADS_PER_BLOCK = 256</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/metric__ops_8h.html b/metric__ops_8h.html
new file mode 100644
index 000000000..3dae855da
--- /dev/null
+++ b/metric__ops_8h.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/metric_ops/metric_ops.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_276218242e4c9e66d5a5475a5ec0acdc.html">metric_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">metric_ops.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/metric__ops__host_8cpp.html b/metric__ops__host_8cpp.html
new file mode 100644
index 000000000..15b6b87e1
--- /dev/null
+++ b/metric__ops__host_8cpp.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/metric_ops/metric_ops_host.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_276218242e4c9e66d5a5475a5ec0acdc.html">metric_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">metric_ops_host.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="metric__ops_8h.html">metric_ops.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacefbgemm__gpu.html b/namespacefbgemm__gpu.html
new file mode 100644
index 000000000..f9fd26442
--- /dev/null
+++ b/namespacefbgemm__gpu.html
@@ -0,0 +1,13947 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: fbgemm_gpu Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">fbgemm_gpu Namespace Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1enum__registration.html">enum_registration</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html">GenericPackedTensorAccessor</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html">GenericPackedTensorAccessorBase</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory.html">SharedMemory</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TensorAccessor</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html">TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor_base.html">TensorAccessorBase</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a17e57fc2dca2d6df09e26f3eec69464c" id="r_a17e57fc2dca2d6df09e26f3eec69464c"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> &gt; </td></tr>
+<tr class="memitem:a17e57fc2dca2d6df09e26f3eec69464c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a17e57fc2dca2d6df09e26f3eec69464c">report_embedding_error</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="#aa80cbea4714c980d14626fd87c9287a4">t</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="#adb51b4975da6fe6cd1f6465b56b3b8ab">B</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">b_begin</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">b_end</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *<a class="el" href="#a66f41f5ea495c26af7e2007fe0a28edc">offsets_data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *<a class="el" href="#acb7eb1c50758e407a638a81723961f56">indices_data</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">hash_size</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">allow_minus_one</a>=<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a>)</td></tr>
+<tr class="separator:a17e57fc2dca2d6df09e26f3eec69464c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab708b23762a11187eb6a32a36f0e34a3" id="r_gab708b23762a11187eb6a32a36f0e34a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">new_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gab708b23762a11187eb6a32a36f0e34a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5351c6ec3de203476cf09df330455d91" id="r_ga5351c6ec3de203476cf09df330455d91"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91">new_managed_tensor_meta</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5351c6ec3de203476cf09df330455d91"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5663643a8ac5de83063d0ff51bb9af17" id="r_ga5663643a8ac5de83063d0ff51bb9af17"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17">new_host_mapped_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:ga5663643a8ac5de83063d0ff51bb9af17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6f8847537ea9ed13fc7e2e378bc79b1f" id="r_ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f">new_unified_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_host_mapped</a>)</td></tr>
+<tr class="separator:ga6f8847537ea9ed13fc7e2e378bc79b1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad5e0d2307667c3db5e73f0c0eec15df5" id="r_gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">new_vanilla_managed_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;sizes)</td></tr>
+<tr class="separator:gad5e0d2307667c3db5e73f0c0eec15df5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga05bf2c435c434904ca454c6992861cb6" id="r_ga05bf2c435c434904ca454c6992861cb6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6">uvm_storage</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga05bf2c435c434904ca454c6992861cb6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gacba28ed334d071e79c1ead1792391e9d" id="r_gacba28ed334d071e79c1ead1792391e9d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d">is_uvm_tensor</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gacba28ed334d071e79c1ead1792391e9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab5a3dab831988b1ce368ccc545b75b48" id="r_gab5a3dab831988b1ce368ccc545b75b48"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48">uvm_to_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:gab5a3dab831988b1ce368ccc545b75b48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaebfedcf8e6017a6d4f6fb16b52c4c04e" id="r_gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e">uvm_to_device</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">prototype</a>)</td></tr>
+<tr class="separator:gaebfedcf8e6017a6d4f6fb16b52c4c04e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gae8c724e90d31245756fc4b0d975f9370" id="r_gae8c724e90d31245756fc4b0d975f9370"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370">uvm_cuda_mem_advise</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cuda_memory_advise</a>)</td></tr>
+<tr class="separator:gae8c724e90d31245756fc4b0d975f9370"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaf060db44e71e3419df6e596614ef2081" id="r_gaf060db44e71e3419df6e596614ef2081"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081">uvm_cuda_mem_prefetch_async</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">device_t</a>)</td></tr>
+<tr class="separator:gaf060db44e71e3419df6e596614ef2081"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga01301ad686f7570c21e81c122d2c7af8" id="r_ga01301ad686f7570c21e81c122d2c7af8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8">uvm_mem_advice_dont_fork</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga01301ad686f7570c21e81c122d2c7af8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga161495e682d9eac3701dca87469930db" id="r_ga161495e682d9eac3701dca87469930db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__cumem-utils.html#ga161495e682d9eac3701dca87469930db">uvm_to_cpu_clone</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">self</a>)</td></tr>
+<tr class="separator:ga161495e682d9eac3701dca87469930db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54bf7e9b54b5263cf039100cda517c34" id="r_a54bf7e9b54b5263cf039100cda517c34"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a54bf7e9b54b5263cf039100cda517c34">embedding_inplace_update_cuda</a> (<a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3">dev_weights</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868">weights_placements</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_weights</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_idx</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_idx</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>=c10::nullopt, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>=c10::nullopt)</td></tr>
+<tr class="separator:a54bf7e9b54b5263cf039100cda517c34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adda552b8784184a2f17aa997e10869f9" id="r_adda552b8784184a2f17aa997e10869f9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#adda552b8784184a2f17aa997e10869f9">pruned_array_lookup_from_row_idx_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_remappings_offsets</a>)</td></tr>
+<tr class="separator:adda552b8784184a2f17aa997e10869f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae86238f4ca864fb4ea41318ece747ab4" id="r_ae86238f4ca864fb4ea41318ece747ab4"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ITEMS_PER_THREAD, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_THREADS_PER_BLOCK&gt; </td></tr>
+<tr class="memitem:ae86238f4ca864fb4ea41318ece747ab4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__inline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ae86238f4ca864fb4ea41318ece747ab4">inclusive_sum_scan_kernel</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>(&amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">arr</a>)[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ITEMS_PER_THREAD</a>], <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> cub::BlockScan&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, <a class="el" href="metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517">NUM_THREADS_PER_BLOCK</a> &gt;::TempStorage &amp;<a class="el" href="#ad0fce99009259dbc5e5c0527eb5b3f64">temp_storage</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_flags</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">volatile</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_sums</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_prev</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_entries_per_block</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">block_id</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">is_multi_block</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">signal</a>)</td></tr>
+<tr class="separator:ae86238f4ca864fb4ea41318ece747ab4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2402de1c0102b21af5f2bd5a50d30309" id="r_ga2402de1c0102b21af5f2bd5a50d30309"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">expand_into_jagged_permute_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="#a313d400789ec7e8bf0702c1d06339394">permute</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_size</a>)</td></tr>
+<tr class="separator:ga2402de1c0102b21af5f2bd5a50d30309"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga201bb2241fc9d582d6c0fe968b0e71ca" id="r_ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">histogram_binning_calibration_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lower_bound</a>=0.0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">upper_bound</a>=1.0, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaef2a0a8c27e3b8b2d72be5c95ba7539e" id="r_gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">generic_histogram_binning_calibration_by_feature_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_value</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="#a13adcdfa105d3fe5d68bfeae4df5f017">num_segments</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="#a7d3b870a22caa3968ca55fb89420e970">bin_boundaries</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af01b4023830652f0cc3e99c87f7b4526" id="r_af01b4023830652f0cc3e99c87f7b4526"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af01b4023830652f0cc3e99c87f7b4526">padding_fused_tbe_input_combine_with_length_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_list</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lengths_list</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">per_sample_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="#add6df347839b36aa580f997fddaebf86">batch_size</a>)</td></tr>
+<tr class="separator:af01b4023830652f0cc3e99c87f7b4526"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791" id="r_ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ad21c70bdd84772ee2b9b3950c87e9791">__launch_bounds__</a> (kMaxThreads) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">jagged_jagged_elementwise_dense_output_kernel_</a>(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pta</a></td></tr>
+<tr class="separator:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53a6da74de342260dcb15c68e9bddfd6" id="r_a53a6da74de342260dcb15c68e9bddfd6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a53a6da74de342260dcb15c68e9bddfd6">jagged_index_add_2d_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_input_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>)</td></tr>
+<tr class="separator:a53a6da74de342260dcb15c68e9bddfd6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acb5a744fbd29c8a3a25621c2850686c1" id="r_acb5a744fbd29c8a3a25621c2850686c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#acb5a744fbd29c8a3a25621c2850686c1">jagged_index_select_2d_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_output_rows</a>)</td></tr>
+<tr class="separator:acb5a744fbd29c8a3a25621c2850686c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaa797caaa08c70857433ae987d9cf30d7" id="r_gaa797caaa08c70857433ae987d9cf30d7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">jagged_dense_elementwise_add</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:gaa797caaa08c70857433ae987d9cf30d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga1290f40c3ba39837dd009c3006353d7c" id="r_ga1290f40c3ba39837dd009c3006353d7c"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c">jagged_dense_elementwise_add_jagged_output</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:ga1290f40c3ba39837dd009c3006353d7c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aca95193cb0cc3db7030f18cb59c6cc33" id="r_aca95193cb0cc3db7030f18cb59c6cc33"><td class="memItemLeft" align="right" valign="top">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#aca95193cb0cc3db7030f18cb59c6cc33">jagged_index_select_2d</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>)</td></tr>
+<tr class="separator:aca95193cb0cc3db7030f18cb59c6cc33"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a71a54a14d90862afc8e5fe03e0c9ed8f" id="r_a71a54a14d90862afc8e5fe03e0c9ed8f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a71a54a14d90862afc8e5fe03e0c9ed8f">jagged_index_select_2d_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_output_rows</a>)</td></tr>
+<tr class="separator:a71a54a14d90862afc8e5fe03e0c9ed8f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af80524a7d454f6db1c478808e8a659a6" id="r_af80524a7d454f6db1c478808e8a659a6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#af80524a7d454f6db1c478808e8a659a6">jagged_index_add_2d_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_dense_input_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>)</td></tr>
+<tr class="separator:af80524a7d454f6db1c478808e8a659a6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4e6521d00a6f81ad8ad7f7d38eef1aea" id="r_a4e6521d00a6f81ad8ad7f7d38eef1aea"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a4e6521d00a6f81ad8ad7f7d38eef1aea">jagged_slice_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_start</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">tgt_start</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_output_rows</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">slice_length</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fill_zeros</a>)</td></tr>
+<tr class="separator:a4e6521d00a6f81ad8ad7f7d38eef1aea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad34ac20d2c9be5a6489c8e8befff7938" id="r_gad34ac20d2c9be5a6489c8e8befff7938"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">jagged_dense_elementwise_add_jagged_output_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_values</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">x_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">y</a>)</td></tr>
+<tr class="separator:gad34ac20d2c9be5a6489c8e8befff7938"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2f1cc4b6dc6f708324855f94d558cfc1" id="r_ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">_float_to_bfloat16_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
+<tr class="separator:ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2076a59fd190690f67c1eddb79b6acc4" id="r_ga2076a59fd190690f67c1eddb79b6acc4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">_bfloat16_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
+<tr class="separator:ga2076a59fd190690f67c1eddb79b6acc4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab2837424e3774fe34ba255658554a75a" id="r_gab2837424e3774fe34ba255658554a75a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">_float_to_hfp8_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
+<tr class="separator:gab2837424e3774fe34ba255658554a75a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga03a8f8825a16c6235b699886fa46e1f6" id="r_ga03a8f8825a16c6235b699886fa46e1f6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">_hfp8_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>)</td></tr>
+<tr class="separator:ga03a8f8825a16c6235b699886fa46e1f6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga427f81e1d8901e2fafc9611860fbd4d5" id="r_ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">_float_to_msfp_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bounding_box_size</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">min_pos</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
+<tr class="separator:ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gac0c20377454dbfafcc5ac245fe6427ce" id="r_gac0c20377454dbfafcc5ac245fe6427ce"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">_msfp_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>)</td></tr>
+<tr class="separator:gac0c20377454dbfafcc5ac245fe6427ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a96db75aa5b2617976c2937ab051b737e" id="r_a96db75aa5b2617976c2937ab051b737e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a96db75aa5b2617976c2937ab051b737e">batched_unary_embeddings_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#ab1426ad1956909abff1b26d04575767a">weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#a114a2ddecfbdbb209bc791977fcb1c0e">table_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>)</td></tr>
+<tr class="separator:a96db75aa5b2617976c2937ab051b737e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a49cb5dd543cc63e932f458e1c79c0d00" id="r_a49cb5dd543cc63e932f458e1c79c0d00"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a49cb5dd543cc63e932f458e1c79c0d00">pack_segments_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">t_in</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a49cb5dd543cc63e932f458e1c79c0d00"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a51f0921a8e934c6c4d0fca5ebb5d8338" id="r_a51f0921a8e934c6c4d0fca5ebb5d8338"><td class="memItemLeft" align="right" valign="top"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a51f0921a8e934c6c4d0fca5ebb5d8338">pack_segments_backward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_length</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a51f0921a8e934c6c4d0fca5ebb5d8338"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaded8e25bef3a32580d71dc2ead25f0c" id="r_aaded8e25bef3a32580d71dc2ead25f0c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#aaded8e25bef3a32580d71dc2ead25f0c">pack_segments_backward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_length</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:aaded8e25bef3a32580d71dc2ead25f0c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4bec138cb5be2583288d026eb4185646" id="r_a4bec138cb5be2583288d026eb4185646"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a4bec138cb5be2583288d026eb4185646">pack_segments_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">t_in</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a4bec138cb5be2583288d026eb4185646"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="aef71de4120929d2410f5d766948f8eaf" name="aef71de4120929d2410f5d766948f8eaf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef71de4120929d2410f5d766948f8eaf">&#9670;&#160;</a></span>enum_item</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#aef71de4120929d2410f5d766948f8eaf">enum_item</a> = std::tuple&lt;std::string, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5fdc84ce2202ea07eb2e865847bd8f34" name="a5fdc84ce2202ea07eb2e865847bd8f34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5fdc84ce2202ea07eb2e865847bd8f34">&#9670;&#160;</a></span>enum_items</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#a5fdc84ce2202ea07eb2e865847bd8f34">enum_items</a> = std::vector&lt;<a class="el" href="#aef71de4120929d2410f5d766948f8eaf">enum_item</a>&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adbdc3251cbd2e995dfa31ffdf2c2df8e" name="adbdc3251cbd2e995dfa31ffdf2c2df8e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbdc3251cbd2e995dfa31ffdf2c2df8e">&#9670;&#160;</a></span>enum_result</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#adbdc3251cbd2e995dfa31ffdf2c2df8e">enum_result</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line"> std::vector&lt;</div>
+<div class="line">    std::tuple&lt;std::string, std::vector&lt;std::tuple&lt;std::string, int64_t&gt;&gt;&gt;&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a4783bbd9753251a335f9f8fa2dd97c8c" name="a4783bbd9753251a335f9f8fa2dd97c8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4783bbd9753251a335f9f8fa2dd97c8c">&#9670;&#160;</a></span>fint32</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#a4783bbd9753251a335f9f8fa2dd97c8c">fint32</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line"> <span class="keyword">union </span><a class="code hl_typedef" href="#a4783bbd9753251a335f9f8fa2dd97c8c">fint32</a> {</div>
+<div class="line">  <a class="code hl_variable" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> I;</div>
+<div class="line">  <span class="keywordtype">float</span> F;</div>
+<div class="line">}</div>
+<div class="ttc" id="agen__embedding__backward__split__grad_8cu_html_abe53421bcec0b67763c3ed41e3a2a2ad"><div class="ttname"><a href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></div><div class="ttdeci">template __global__ uint32_t</div><div class="ttdef"><b>Definition</b> gen_embedding_backward_split_grad.cu:137</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a4783bbd9753251a335f9f8fa2dd97c8c"><div class="ttname"><a href="#a4783bbd9753251a335f9f8fa2dd97c8c">fbgemm_gpu::fint32</a></div><div class="ttdeci">union fint32 { uint32_t I; float F;} fint32</div><div class="ttdef"><b>Definition</b> quantize_ops_utils.h:24</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a64ee5a7e6df3a95f1d4bdd9f38707c96" name="a64ee5a7e6df3a95f1d4bdd9f38707c96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64ee5a7e6df3a95f1d4bdd9f38707c96">&#9670;&#160;</a></span>PackedTensorAccessor32</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#a64ee5a7e6df3a95f1d4bdd9f38707c96">PackedTensorAccessor32</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line"> </div>
+<div class="line">    GenericPackedTensorAccessor&lt;T, N, PtrTraits, int32_t&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a69b304f75455a9eb7144259c09770877" name="a69b304f75455a9eb7144259c09770877"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69b304f75455a9eb7144259c09770877">&#9670;&#160;</a></span>PackedTensorAccessor64</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#a69b304f75455a9eb7144259c09770877">PackedTensorAccessor64</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line"> </div>
+<div class="line">    GenericPackedTensorAccessor&lt;T, N, PtrTraits, int64_t&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ae2016e9bbb2f470174708fc60cd7592f" name="ae2016e9bbb2f470174708fc60cd7592f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2016e9bbb2f470174708fc60cd7592f">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> at::Tensor <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8406b85b19117866badffef9481f3e2" name="ae8406b85b19117866badffef9481f3e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8406b85b19117866badffef9481f3e2">&#9670;&#160;</a></span>uoffset_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#ae8406b85b19117866badffef9481f3e2">uoffset_t</a> = std::make_unsigned_t&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Enumeration Type Documentation</h2>
+<a id="afcbf1cd70ce8ea074c2e799d1559b396" name="afcbf1cd70ce8ea074c2e799d1559b396"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afcbf1cd70ce8ea074c2e799d1559b396">&#9670;&#160;</a></span>args_pos</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="#afcbf1cd70ce8ea074c2e799d1559b396">args_pos</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6" name="afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6"></a>P_indices_prts&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0" name="afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0"></a>P_lengths_addrs&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de" name="afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de"></a>P_indices_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97" name="afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97"></a>P_lengths_offsets&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93" name="afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93"></a>P_per_sample_weight&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125" name="afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125"></a>P_indices_is_long&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e" name="afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e"></a>P_lengths_is_long&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a70433200cf584e2429434a33d45111ea" name="a70433200cf584e2429434a33d45111ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70433200cf584e2429434a33d45111ea">&#9670;&#160;</a></span>BoundsCheckMode</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#a70433200cf584e2429434a33d45111ea">BoundsCheckMode</a> : <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a70433200cf584e2429434a33d45111eaa19da7170bea36556dde582519795f3fc" name="a70433200cf584e2429434a33d45111eaa19da7170bea36556dde582519795f3fc"></a>FATAL&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a70433200cf584e2429434a33d45111eaa059e9861e0400dfbe05c98a841f3f96b" name="a70433200cf584e2429434a33d45111eaa059e9861e0400dfbe05c98a841f3f96b"></a>WARNING&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a70433200cf584e2429434a33d45111eaaa2e843feab94ef623fea888f07c28696" name="a70433200cf584e2429434a33d45111eaaa2e843feab94ef623fea888f07c28696"></a>IGNORE&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a8f04cbe33fa88d1e420c06b1f8879194" name="a8f04cbe33fa88d1e420c06b1f8879194"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f04cbe33fa88d1e420c06b1f8879194">&#9670;&#160;</a></span>PlacementType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#a8f04cbe33fa88d1e420c06b1f8879194">PlacementType</a> : <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a8f04cbe33fa88d1e420c06b1f8879194ae10b6ab6a278644ce40631f62f360b6d" name="a8f04cbe33fa88d1e420c06b1f8879194ae10b6ab6a278644ce40631f62f360b6d"></a>DEVICE&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a8f04cbe33fa88d1e420c06b1f8879194af59a25f2594f469f0bfccad7f8f13744" name="a8f04cbe33fa88d1e420c06b1f8879194af59a25f2594f469f0bfccad7f8f13744"></a>MANAGED&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a8f04cbe33fa88d1e420c06b1f8879194a3664f93edf39a3e7e0a84f3cefb624a6" name="a8f04cbe33fa88d1e420c06b1f8879194a3664f93edf39a3e7e0a84f3cefb624a6"></a>MANAGED_CACHING&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a8f04cbe33fa88d1e420c06b1f8879194ab9361011891280a44d85b967739cc6a5" name="a8f04cbe33fa88d1e420c06b1f8879194ab9361011891280a44d85b967739cc6a5"></a>HOST&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aa1f721fe0d5e5a710e7a05f788f01f5d" name="aa1f721fe0d5e5a710e7a05f788f01f5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa1f721fe0d5e5a710e7a05f788f01f5d">&#9670;&#160;</a></span>PoolingMode</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#aa1f721fe0d5e5a710e7a05f788f01f5d">PoolingMode</a> : <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa1f721fe0d5e5a710e7a05f788f01f5da6970bdc2201030b9c03fbdcf3973858a" name="aa1f721fe0d5e5a710e7a05f788f01f5da6970bdc2201030b9c03fbdcf3973858a"></a>SUM&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa1f721fe0d5e5a710e7a05f788f01f5da4ea6d1161ea24d7599365f574aff6610" name="aa1f721fe0d5e5a710e7a05f788f01f5da4ea6d1161ea24d7599365f574aff6610"></a>MEAN&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa1f721fe0d5e5a710e7a05f788f01f5dab50339a10e1de285ac99d4c3990b8693" name="aa1f721fe0d5e5a710e7a05f788f01f5dab50339a10e1de285ac99d4c3990b8693"></a>NONE&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aa7e45742197542f659233c21b883ba60" name="aa7e45742197542f659233c21b883ba60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7e45742197542f659233c21b883ba60">&#9670;&#160;</a></span>PrimitiveType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#aa7e45742197542f659233c21b883ba60">PrimitiveType</a> : <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa7e45742197542f659233c21b883ba60a4ebada6a2af2bcba53ded1d7b414f081" name="aa7e45742197542f659233c21b883ba60a4ebada6a2af2bcba53ded1d7b414f081"></a>FP&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa7e45742197542f659233c21b883ba60a53f93baa3057821107c750323892fa92" name="aa7e45742197542f659233c21b883ba60a53f93baa3057821107c750323892fa92"></a>INT&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aa7e45742197542f659233c21b883ba60a7b8d2f92148f52cad46e331936922e80" name="aa7e45742197542f659233c21b883ba60a7b8d2f92148f52cad46e331936922e80"></a>BF&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a47b4476e5f749d63e15d2f8e55be833e" name="a47b4476e5f749d63e15d2f8e55be833e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a47b4476e5f749d63e15d2f8e55be833e">&#9670;&#160;</a></span>SparseType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#a47b4476e5f749d63e15d2f8e55be833e">SparseType</a> : <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">strong</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833ea693aa0bef84c25fe81c7e62e72f9313d" name="a47b4476e5f749d63e15d2f8e55be833ea693aa0bef84c25fe81c7e62e72f9313d"></a>FP32&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833eaa4bf99d6945c25077fd6660d536af8a0" name="a47b4476e5f749d63e15d2f8e55be833eaa4bf99d6945c25077fd6660d536af8a0"></a>FP16&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833eaee9d73311ff0658494edfff14c3ec1e3" name="a47b4476e5f749d63e15d2f8e55be833eaee9d73311ff0658494edfff14c3ec1e3"></a>INT8&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833ea94635600f8a63640263a5ebc30d79a2a" name="a47b4476e5f749d63e15d2f8e55be833ea94635600f8a63640263a5ebc30d79a2a"></a>INT4&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833ea8fbf1fab49398b0d298699ea3ccbebc5" name="a47b4476e5f749d63e15d2f8e55be833ea8fbf1fab49398b0d298699ea3ccbebc5"></a>INT2&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833eaf656bbf613964dcf710b771b0918ab30" name="a47b4476e5f749d63e15d2f8e55be833eaf656bbf613964dcf710b771b0918ab30"></a>BF16&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833eae32efd813b88548940f8718a61864cf5" name="a47b4476e5f749d63e15d2f8e55be833eae32efd813b88548940f8718a61864cf5"></a>FP8&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a47b4476e5f749d63e15d2f8e55be833eaccc0377a8afbf50e7094f5c23a8af223" name="a47b4476e5f749d63e15d2f8e55be833eaccc0377a8afbf50e7094f5c23a8af223"></a>INVALID&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aefeeb0d13ba9b557b8d693c43e5a43aa" name="aefeeb0d13ba9b557b8d693c43e5a43aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aefeeb0d13ba9b557b8d693c43e5a43aa">&#9670;&#160;</a></span>uvm_cache_stats_index</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">enum</a> <a class="el" href="#aefeeb0d13ba9b557b8d693c43e5a43aa">uvm_cache_stats_index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34" name="aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34"></a>num_calls&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439" name="aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439"></a>num_requested_indices&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc" name="aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc"></a>num_unique_indices&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53" name="aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53"></a>num_unique_misses&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6" name="aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6"></a>num_conflict_unique_misses&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6" name="aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6"></a>num_conflict_misses&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ad5af23eb5e28d14f6089e7a18b0ed0d5" name="ad5af23eb5e28d14f6089e7a18b0ed0d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5af23eb5e28d14f6089e7a18b0ed0d5">&#9670;&#160;</a></span>__align__() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">struct</a> __align__ </td>
+          <td>(</td>
+          <td class="paramtype">16</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a25aa8cfdd2801c4576fb7111ca1e34" name="a9a25aa8cfdd2801c4576fb7111ca1e34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a25aa8cfdd2801c4576fb7111ca1e34">&#9670;&#160;</a></span>__align__() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">struct</a> __align__ </td>
+          <td>(</td>
+          <td class="paramtype">32</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5ef7f218ca22e4dd93d4161458006f6" name="ac5ef7f218ca22e4dd93d4161458006f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5ef7f218ca22e4dd93d4161458006f6">&#9670;&#160;</a></span>__align__() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">struct</a> __align__ </td>
+          <td>(</td>
+          <td class="paramtype">64</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5365b81a771afde2d770210e45b73bdb" name="a5365b81a771afde2d770210e45b73bdb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5365b81a771afde2d770210e45b73bdb">&#9670;&#160;</a></span>__align__() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">struct</a> __align__ </td>
+          <td>(</td>
+          <td class="paramtype">8</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17d5a2e40c83e6e3f5c68e375bf468f7" name="a17d5a2e40c83e6e3f5c68e375bf468f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17d5a2e40c83e6e3f5c68e375bf468f7">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac59415a66e49753fb42195f0d816c7c2" name="ac59415a66e49753fb42195f0d816c7c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac59415a66e49753fb42195f0d816c7c2">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> sequence, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> bucketize_pos, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a28846f89e09ae2fc064e73142d83ceef" name="a28846f89e09ae2fc064e73142d83ceef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28846f89e09ae2fc064e73142d83ceef">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[3/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> BLOCK_TILE_M, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> BLOCK_TILE_N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> BLOCK_TILE_K, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> THREAD_TILE_M, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> THREAD_TILE_N, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd2e24ffed8f057a2092d699b4cb3cb0" name="afd2e24ffed8f057a2092d699b4cb3cb0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd2e24ffed8f057a2092d699b4cb3cb0">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[4/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad21c70bdd84772ee2b9b3950c87e9791" name="ad21c70bdd84772ee2b9b3950c87e9791"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad21c70bdd84772ee2b9b3950c87e9791">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[5/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>output = f(x, y) where x and y are jagged (and share x_offsets), and output is dense.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">padding_value</td><td>padding_value for the output, not for inputs </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="ac93e7c311a1d26fbe8815c8b34a6bde4" name="ac93e7c311a1d26fbe8815c8b34a6bde4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac93e7c311a1d26fbe8815c8b34a6bde4">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[6/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50af77e9607a7a96addff8aa8e5e4508" name="a50af77e9607a7a96addff8aa8e5e4508"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50af77e9607a7a96addff8aa8e5e4508">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[7/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">OffsetType</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueType</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8c67a657c3008d1d87472f216f7908f" name="ad8c67a657c3008d1d87472f216f7908f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8c67a657c3008d1d87472f216f7908f">&#9670;&#160;</a></span>_bfloat16_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor _bfloat16_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adaf7cd0195ff361555f35a017c018d25" name="adaf7cd0195ff361555f35a017c018d25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adaf7cd0195ff361555f35a017c018d25">&#9670;&#160;</a></span>_block_bucketize_sparse_features_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> sequence, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _block_bucketize_sparse_features_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>block_sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>new_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>new_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>new_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>new_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>unbucketize_permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_size_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; at::Tensor &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>block_bucketize_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f2b214db9aa3f8887c267c0ea9f5edf" name="a1f2b214db9aa3f8887c267c0ea9f5edf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f2b214db9aa3f8887c267c0ea9f5edf">&#9670;&#160;</a></span>_bucketize_sparse_features_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _bucketize_sparse_features_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>new_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>new_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; at::Tensor &gt;</td>          <td class="paramname"><span class="paramname"><em>new_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; at::Tensor &gt;</td>          <td class="paramname"><span class="paramname"><em>new_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acd8fa4397185c592f5eac101b42504a6" name="acd8fa4397185c592f5eac101b42504a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd8fa4397185c592f5eac101b42504a6">&#9670;&#160;</a></span>_cat_int_tensors()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _cat_int_tensors </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>tensor_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_num</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_pin_memory</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1376d05f5d6efb4fbdb869e391702adf" name="a1376d05f5d6efb4fbdb869e391702adf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1376d05f5d6efb4fbdb869e391702adf">&#9670;&#160;</a></span>_cat_int_tensors_with_padding()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _cat_int_tensors_with_padding </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>tensor_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_num</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_pin_memory</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0eec17207e4a69da15dae845d02721e5" name="a0eec17207e4a69da15dae845d02721e5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0eec17207e4a69da15dae845d02721e5">&#9670;&#160;</a></span>_cat_per_sample_weights_list()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _cat_per_sample_weights_list </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_num</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_pin_memory</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac339123bb72d7421fca2d2b56821f02a" name="ac339123bb72d7421fca2d2b56821f02a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac339123bb72d7421fca2d2b56821f02a">&#9670;&#160;</a></span>_expand_into_jagged_permute_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _expand_into_jagged_permute_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>permute_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_permute</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a51665269174ef625316e519465a67839" name="a51665269174ef625316e519465a67839"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a51665269174ef625316e519465a67839">&#9670;&#160;</a></span>_float_to_bfloat16_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor _float_to_bfloat16_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c5dca8da7ca5c5f89ecdc816745ba29" name="a6c5dca8da7ca5c5f89ecdc816745ba29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c5dca8da7ca5c5f89ecdc816745ba29">&#9670;&#160;</a></span>_float_to_FP8rowwise_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_FP8rowwise_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f58b5ea1ea6cd38a42f73e5d688bb2c" name="a7f58b5ea1ea6cd38a42f73e5d688bb2c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f58b5ea1ea6cd38a42f73e5d688bb2c">&#9670;&#160;</a></span>_float_to_fused8bitrowwise_cpu_out_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; _float_to_fused8bitrowwise_cpu_out_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16bbb8557f4229489d966bb1d11bd00c" name="a16bbb8557f4229489d966bb1d11bd00c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16bbb8557f4229489d966bb1d11bd00c">&#9670;&#160;</a></span>_float_to_fused8bitrowwise_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_fused8bitrowwise_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a29553ad77238659bb86c14842103d1d5" name="a29553ad77238659bb86c14842103d1d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29553ad77238659bb86c14842103d1d5">&#9670;&#160;</a></span>_float_to_fusednbitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_fusednbitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a70e9b9692aae9789f0a3804b9d12efe5" name="a70e9b9692aae9789f0a3804b9d12efe5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70e9b9692aae9789f0a3804b9d12efe5">&#9670;&#160;</a></span>_float_to_hfp8_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor _float_to_hfp8_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>max_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d80140f030f2ca22fd14560e2d8aa42" name="a1d80140f030f2ca22fd14560e2d8aa42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d80140f030f2ca22fd14560e2d8aa42">&#9670;&#160;</a></span>_float_to_paddedFP8rowwise_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _float_to_paddedFP8rowwise_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_dim</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a70d90c85fad4384b23c8958a6c300ce2" name="a70d90c85fad4384b23c8958a6c300ce2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70d90c85fad4384b23c8958a6c300ce2">&#9670;&#160;</a></span>_FP8rowwise_to_float_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _FP8rowwise_to_float_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac8931bd574641641dc69eadaae32efe3" name="ac8931bd574641641dc69eadaae32efe3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8931bd574641641dc69eadaae32efe3">&#9670;&#160;</a></span>_FP8rowwise_to_float_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _FP8rowwise_to_float_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc6b77e9be7ff8c2e5f16297fa6fad38" name="acc6b77e9be7ff8c2e5f16297fa6fad38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc6b77e9be7ff8c2e5f16297fa6fad38">&#9670;&#160;</a></span>_fused8bitrowwise_to_float_cpu_out_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; _fused8bitrowwise_to_float_cpu_out_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab093a380068925d1b267452a1e255c2" name="aab093a380068925d1b267452a1e255c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab093a380068925d1b267452a1e255c2">&#9670;&#160;</a></span>_fused8bitrowwise_to_float_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fused8bitrowwise_to_float_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25d0793a9d1fe66bccad409791738b7b" name="a25d0793a9d1fe66bccad409791738b7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25d0793a9d1fe66bccad409791738b7b">&#9670;&#160;</a></span>_fused8bitrowwise_to_float_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _fused8bitrowwise_to_float_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3aa2e594cf4bbb5cb5241c4eaa593f8a" name="a3aa2e594cf4bbb5cb5241c4eaa593f8a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3aa2e594cf4bbb5cb5241c4eaa593f8a">&#9670;&#160;</a></span>_fused8bitrowwise_to_half_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fused8bitrowwise_to_half_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6141e72712885a0c89d74829be2fe6a" name="aa6141e72712885a0c89d74829be2fe6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6141e72712885a0c89d74829be2fe6a">&#9670;&#160;</a></span>_fusednbitrowwise_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _fusednbitrowwise_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0193dd7bbb4e72fc977330cc3f019a4" name="ae0193dd7bbb4e72fc977330cc3f019a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0193dd7bbb4e72fc977330cc3f019a4">&#9670;&#160;</a></span>_fusednbitrowwise_to_float_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _fusednbitrowwise_to_float_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="accd75a24d809f4322a18bfb12f47b343" name="accd75a24d809f4322a18bfb12f47b343"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accd75a24d809f4322a18bfb12f47b343">&#9670;&#160;</a></span>_generic_histogram_binning_calibration_by_feature_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _generic_histogram_binning_calibration_by_feature_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_logits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_bins</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>recalibrate_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>logit_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>dense_segment_value_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_examples_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_positives_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_boundaries</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>calibrated_prediction_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_ids_data</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23bfcbc4afa5dd7d35ee03b7f23840a9" name="a23bfcbc4afa5dd7d35ee03b7f23840a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23bfcbc4afa5dd7d35ee03b7f23840a9">&#9670;&#160;</a></span>_half_to_fused8bitrowwise_cpu_out()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; _half_to_fused8bitrowwise_cpu_out </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adfeb2fc956b7aa5c2446a00ccbcd058e" name="adfeb2fc956b7aa5c2446a00ccbcd058e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfeb2fc956b7aa5c2446a00ccbcd058e">&#9670;&#160;</a></span>_half_to_fused8bitrowwise_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _half_to_fused8bitrowwise_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa8438f606e84d5cb07827759163bec6" name="aaa8438f606e84d5cb07827759163bec6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa8438f606e84d5cb07827759163bec6">&#9670;&#160;</a></span>_hfp8_to_float_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor _hfp8_to_float_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adce89aa38a4a22058ec42b5077bbe23a" name="adce89aa38a4a22058ec42b5077bbe23a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adce89aa38a4a22058ec42b5077bbe23a">&#9670;&#160;</a></span>_histogram_binning_calibration_by_feature_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _histogram_binning_calibration_by_feature_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_logits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_bins</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>recalibrate_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>step</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>logit_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>dense_segment_value_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_examples_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_positives_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>calibrated_prediction_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_ids_data</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7639f61a587aa5052c488fbd00d3784b" name="a7639f61a587aa5052c488fbd00d3784b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7639f61a587aa5052c488fbd00d3784b">&#9670;&#160;</a></span>_histogram_binning_calibration_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _histogram_binning_calibration_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_logits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>recalibrate_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>step</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>logit_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_examples_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_num_positives_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>calibrated_prediction_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>bin_ids_data</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7a8e9e91365de25b995833c08eb32eff" name="a7a8e9e91365de25b995833c08eb32eff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7a8e9e91365de25b995833c08eb32eff">&#9670;&#160;</a></span>_invert_permute_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _invert_permute_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>permute_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>inversed_permute</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc30bb56977528d8a85e43f9aa5c2cf8" name="afc30bb56977528d8a85e43f9aa5c2cf8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc30bb56977528d8a85e43f9aa5c2cf8">&#9670;&#160;</a></span>_paddedFP8rowwise_to_float_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor _paddedFP8rowwise_to_float_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_last_dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c0b93e239757d9564c51f8922f17554" name="a0c0b93e239757d9564c51f8922f17554"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c0b93e239757d9564c51f8922f17554">&#9670;&#160;</a></span>_paddedFP8rowwise_to_float_gpu_t()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> _paddedFP8rowwise_to_float_gpu_t </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_last_dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0e07ade6f2b89bf71c344aac8106b59" name="af0e07ade6f2b89bf71c344aac8106b59"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0e07ade6f2b89bf71c344aac8106b59">&#9670;&#160;</a></span>_permute_1D_indices_weights_kernel_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_1D_indices_weights_kernel_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8dfcdb2c902cf1c4e5d0ed916d5fe779" name="a8dfcdb2c902cf1c4e5d0ed916d5fe779"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8dfcdb2c902cf1c4e5d0ed916d5fe779">&#9670;&#160;</a></span>_permute_1D_lengths_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_1D_lengths_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acad68edeefe7a7710f729cdc56876851" name="acad68edeefe7a7710f729cdc56876851"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acad68edeefe7a7710f729cdc56876851">&#9670;&#160;</a></span>_permute_2D_indices_weights_kernel_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_2D_indices_weights_kernel_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets_per_thread_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a72c447e3b6d38b548d89ebc464e2d469" name="a72c447e3b6d38b548d89ebc464e2d469"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a72c447e3b6d38b548d89ebc464e2d469">&#9670;&#160;</a></span>_permute_2D_lengths_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_2D_lengths_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>lengths_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets_per_thread_cumsum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2fb715b347e075f3331083905cdaadfb" name="a2fb715b347e075f3331083905cdaadfb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2fb715b347e075f3331083905cdaadfb">&#9670;&#160;</a></span>_permute_data_kernel_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_data_kernel_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets_per_thread_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6987e1403a25c256168873616dffbdf6" name="a6987e1403a25c256168873616dffbdf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6987e1403a25c256168873616dffbdf6">&#9670;&#160;</a></span>_permute_embeddings_kernel_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_embeddings_kernel_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>embeddings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets_per_thread_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_embeddings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c7749afd2c661b1d302268035fde42b" name="a4c7749afd2c661b1d302268035fde42b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c7749afd2c661b1d302268035fde42b">&#9670;&#160;</a></span>_permute_lengths_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _permute_lengths_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>lengths_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets_per_thread_cumsum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ade08c8b174b0ecbb99d01ad87b4da0b3" name="ade08c8b174b0ecbb99d01ad87b4da0b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade08c8b174b0ecbb99d01ad87b4da0b3">&#9670;&#160;</a></span>_segment_sum_csr_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> _segment_sum_csr_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>csr_seg_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>values_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output_data</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3de0ed0985acc3edc0583b6cd56a43f2" name="a3de0ed0985acc3edc0583b6cd56a43f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3de0ed0985acc3edc0583b6cd56a43f2">&#9670;&#160;</a></span>accumulate_fp16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> accumulate_fp16 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>vals</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeb3ef6437b744f52b29910361f83336c" name="aeb3ef6437b744f52b29910361f83336c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb3ef6437b744f52b29910361f83336c">&#9670;&#160;</a></span>accumulate_fp32()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> accumulate_fp32 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>vals</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc596fdaac7efc925d19d7374251e8cb" name="acc596fdaac7efc925d19d7374251e8cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc596fdaac7efc925d19d7374251e8cb">&#9670;&#160;</a></span>accumulate_packed_hfp8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> accumulate_packed_hfp8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a857c58d8bfc412a3901414ef0b0f73c5" name="a857c58d8bfc412a3901414ef0b0f73c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a857c58d8bfc412a3901414ef0b0f73c5">&#9670;&#160;</a></span>accumulate_packed_int2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a> accumulate_packed_int2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3478ab6f636e80a75953ffc1d8caed9" name="af3478ab6f636e80a75953ffc1d8caed9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3478ab6f636e80a75953ffc1d8caed9">&#9670;&#160;</a></span>accumulate_packed_int4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a> accumulate_packed_int4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24c22ef27a441cb888d3b32957588794" name="a24c22ef27a441cb888d3b32957588794"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24c22ef27a441cb888d3b32957588794">&#9670;&#160;</a></span>accumulate_packed_int8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> accumulate_packed_int8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2700bcf99c82f2491a174d51c462e4e8" name="a2700bcf99c82f2491a174d51c462e4e8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2700bcf99c82f2491a174d51c462e4e8">&#9670;&#160;</a></span>accumulate_weighted_fp16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> accumulate_weighted_fp16 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>vals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7225f36d3ef25f69273160500bd0b9a7" name="a7225f36d3ef25f69273160500bd0b9a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7225f36d3ef25f69273160500bd0b9a7">&#9670;&#160;</a></span>accumulate_weighted_fp32()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> accumulate_weighted_fp32 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>vals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa177a98d987438afcde04f7fc2cba71a" name="aa177a98d987438afcde04f7fc2cba71a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa177a98d987438afcde04f7fc2cba71a">&#9670;&#160;</a></span>accumulate_weighted_packed_hfp8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> accumulate_weighted_packed_hfp8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aebe17b37f24d82ea8cfbd296e307d5ab" name="aebe17b37f24d82ea8cfbd296e307d5ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aebe17b37f24d82ea8cfbd296e307d5ab">&#9670;&#160;</a></span>accumulate_weighted_packed_int2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a> accumulate_weighted_packed_int2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ade03f1b4099c9ecaf38d7d6a0eb7d595" name="ade03f1b4099c9ecaf38d7d6a0eb7d595"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade03f1b4099c9ecaf38d7d6a0eb7d595">&#9670;&#160;</a></span>accumulate_weighted_packed_int4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a> accumulate_weighted_packed_int4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a80d2d456b1c87f68c9098d5e5d1fd47d" name="a80d2d456b1c87f68c9098d5e5d1fd47d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80d2d456b1c87f68c9098d5e5d1fd47d">&#9670;&#160;</a></span>accumulate_weighted_packed_int8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> accumulate_weighted_packed_int8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>acc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e69d027d43eb7e92ea620d43ae43cb1" name="a6e69d027d43eb7e92ea620d43ae43cb1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e69d027d43eb7e92ea620d43ae43cb1">&#9670;&#160;</a></span>assign()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> assign </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>assign</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98effac974dc3fe5bbcc4ce8a75578f7" name="a98effac974dc3fe5bbcc4ce8a75578f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98effac974dc3fe5bbcc4ce8a75578f7">&#9670;&#160;</a></span>asynchronous_complete_cumsum_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_complete_cumsum_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f31ee9922c98ad5d013361368f2f5ac" name="a1f31ee9922c98ad5d013361368f2f5ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f31ee9922c98ad5d013361368f2f5ac">&#9670;&#160;</a></span>asynchronous_complete_cumsum_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_complete_cumsum_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a656bb5222f2a0bc92d5b895ba0fa846c" name="a656bb5222f2a0bc92d5b895ba0fa846c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a656bb5222f2a0bc92d5b895ba0fa846c">&#9670;&#160;</a></span>asynchronous_complete_cumsum_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_complete_cumsum_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69fe5be794026bdb73b0196be9b345a4" name="a69fe5be794026bdb73b0196be9b345a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69fe5be794026bdb73b0196be9b345a4">&#9670;&#160;</a></span>asynchronous_exclusive_cumsum_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_exclusive_cumsum_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd8b0919b5b3b021a8eb3727e304d5b4" name="afd8b0919b5b3b021a8eb3727e304d5b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd8b0919b5b3b021a8eb3727e304d5b4">&#9670;&#160;</a></span>asynchronous_exclusive_cumsum_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_exclusive_cumsum_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae96f1ffdb8ed1efd58561364fbaf3c6a" name="ae96f1ffdb8ed1efd58561364fbaf3c6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae96f1ffdb8ed1efd58561364fbaf3c6a">&#9670;&#160;</a></span>asynchronous_exclusive_cumsum_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_exclusive_cumsum_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8930419ab36c85750182c12db95baa29" name="a8930419ab36c85750182c12db95baa29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8930419ab36c85750182c12db95baa29">&#9670;&#160;</a></span>asynchronous_inclusive_cumsum_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_inclusive_cumsum_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc0c0e7f6e816900474b2e52756ac891" name="acc0c0e7f6e816900474b2e52756ac891"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc0c0e7f6e816900474b2e52756ac891">&#9670;&#160;</a></span>asynchronous_inclusive_cumsum_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> asynchronous_inclusive_cumsum_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4bcadae3f465ece7979bf89f0c1cf22a" name="a4bcadae3f465ece7979bf89f0c1cf22a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4bcadae3f465ece7979bf89f0c1cf22a">&#9670;&#160;</a></span>auc_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">label_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weight_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> PADDED_SECTION_SIZE&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> auc_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">label_t</a> *</td>          <td class="paramname"><span class="paramname"><em>labels</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weight_t</a> *</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>block_flags</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_sums</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_entries</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>last_block_num_entries</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>padded_num_entries_per_block</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_blocks</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9ef3cbe68285c5559d30c5157131e29" name="ac9ef3cbe68285c5559d30c5157131e29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9ef3cbe68285c5559d30c5157131e29">&#9670;&#160;</a></span>ballot_sync()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> ballot_sync </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>predicate</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">kFullWarpMask</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abeeb6bd4d39a0e534db2213258704285" name="abeeb6bd4d39a0e534db2213258704285"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abeeb6bd4d39a0e534db2213258704285">&#9670;&#160;</a></span>batch_auc()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor batch_auc </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_tasks</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>labels</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae815e5156f29e106f0fcb6054d386afa" name="ae815e5156f29e106f0fcb6054d386afa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae815e5156f29e106f0fcb6054d386afa">&#9670;&#160;</a></span>batched_dense_vec_jagged_2d_mul_backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; batched_dense_vec_jagged_2d_mul_backward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af5324c97be6dc5aecbc40e4e3244646f" name="af5324c97be6dc5aecbc40e4e3244646f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5324c97be6dc5aecbc40e4e3244646f">&#9670;&#160;</a></span>batched_dense_vec_jagged_2d_mul_backward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; batched_dense_vec_jagged_2d_mul_backward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac3080e0008d5cdd9f1f32b33e38aee95" name="ac3080e0008d5cdd9f1f32b33e38aee95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3080e0008d5cdd9f1f32b33e38aee95">&#9670;&#160;</a></span>batched_dense_vec_jagged_2d_mul_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_dense_vec_jagged_2d_mul_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a399af8be70030a7aeaedbdf546efe61a" name="a399af8be70030a7aeaedbdf546efe61a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a399af8be70030a7aeaedbdf546efe61a">&#9670;&#160;</a></span>batched_dense_vec_jagged_2d_mul_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_dense_vec_jagged_2d_mul_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>a_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e4965515624f44fcd114ff1e5ff0998" name="a0e4965515624f44fcd114ff1e5ff0998"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e4965515624f44fcd114ff1e5ff0998">&#9670;&#160;</a></span>batched_unary_embeddings_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_unary_embeddings_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>table_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96db75aa5b2617976c2937ab051b737e" name="a96db75aa5b2617976c2937ab051b737e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96db75aa5b2617976c2937ab051b737e">&#9670;&#160;</a></span>batched_unary_embeddings_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_unary_embeddings_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>table_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>CPU version of batched_unary_embeddings forward pass.</p>
+<p>Sums up <code>weight</code> embeddings according to <code>offsets</code> and <code>indices</code>. <code>table_offests</code> is a helper struct to quickly navigate through tables in <code>weight</code> &ndash; it is caller's responsibility to keep it in sync with <code>weight</code>. Visualization of op semantics: <a href="https://fburl.com/9a4uktmb">https://fburl.com/9a4uktmb</a></p>
+<p>This version is only for numerical verification so not optimized for performance.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">weight</td><td>- Weight for the embeddings. </td></tr>
+    <tr><td class="paramname">table_offsets</td><td>- Index offsets for each table entry in <code>weight</code>. </td></tr>
+    <tr><td class="paramname">offsets</td><td>- Offsets for the starting point of each summation. </td></tr>
+    <tr><td class="paramname">indices</td><td>- Indices for the embeddings to fetch (from <code>weight</code>). </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>The sumed embeddings. </dd></dl>
+
+</div>
+</div>
+<a id="a9895cf76445e7258f2464bb037d2c54c" name="a9895cf76445e7258f2464bb037d2c54c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9895cf76445e7258f2464bb037d2c54c">&#9670;&#160;</a></span>batched_unary_embeddings_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> batched_unary_embeddings_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>table_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f1d1afe56f116552e1ca9759e6e0fcc" name="a0f1d1afe56f116552e1ca9759e6e0fcc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f1d1afe56f116552e1ca9759e6e0fcc">&#9670;&#160;</a></span>BFloat16QuantizedToFloat_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> BFloat16QuantizedToFloat_ref </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>numel</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a13b4df4139f3c64ac4d8dbea51a7e7a0" name="a13b4df4139f3c64ac4d8dbea51a7e7a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a13b4df4139f3c64ac4d8dbea51a7e7a0">&#9670;&#160;</a></span>binary_search_range()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> binary_search_range </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>found</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>arr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a></td>          <td class="paramname"><span class="paramname"><em>target</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_entries</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a270e4d8df103fa6c3e6750890608b566" name="a270e4d8df103fa6c3e6750890608b566"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a270e4d8df103fa6c3e6750890608b566">&#9670;&#160;</a></span>block_bucketize_sparse_features_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; block_bucketize_sparse_features_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>sequence</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>block_sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_size_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; at::Tensor &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>block_bucketize_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a293dc249ac4679d97747778a7fb02bd5" name="a293dc249ac4679d97747778a7fb02bd5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a293dc249ac4679d97747778a7fb02bd5">&#9670;&#160;</a></span>block_bucketize_sparse_features_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; block_bucketize_sparse_features_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>sequence</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>block_sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_size_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; at::Tensor &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>block_bucketize_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83c70249ce058969210bda8aedf671a4" name="a83c70249ce058969210bda8aedf671a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83c70249ce058969210bda8aedf671a4">&#9670;&#160;</a></span>bucketize_sparse_features_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; at::Tensor, at::Tensor, c10::optional&lt; at::Tensor &gt;, c10::optional&lt; at::Tensor &gt; &gt; bucketize_sparse_features_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb94f2bd00f8ee054a4a1d2417a093d1" name="abb94f2bd00f8ee054a4a1d2417a093d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb94f2bd00f8ee054a4a1d2417a093d1">&#9670;&#160;</a></span>bucketize_sparse_features_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; bucketize_sparse_features_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>bucketize_pos</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>my_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0656dd690bcffdd8b470d894e25b2d8" name="ae0656dd690bcffdd8b470d894e25b2d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0656dd690bcffdd8b470d894e25b2d8">&#9670;&#160;</a></span>calc_offsets_range_thread_block()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> &gt; calc_offsets_range_thread_block </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_seq</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1ed236113fa360c41a2eb0507c3fc2c7" name="a1ed236113fa360c41a2eb0507c3fc2c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ed236113fa360c41a2eb0507c3fc2c7">&#9670;&#160;</a></span>cat_reorder_batched_ad_indices_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> cat_reorder_batched_ad_indices_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ad_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>reordered_cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_num_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>pinned_memory</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b5e65a3f532db97f093037c9dcb3902" name="a6b5e65a3f532db97f093037c9dcb3902"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b5e65a3f532db97f093037c9dcb3902">&#9670;&#160;</a></span>cat_reorder_batched_ad_indices_cpu_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> cat_reorder_batched_ad_indices_cpu_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ad_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>reordered_cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b41d7b032eb1abe61eee0bd903d8dfb" name="a6b41d7b032eb1abe61eee0bd903d8dfb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b41d7b032eb1abe61eee0bd903d8dfb">&#9670;&#160;</a></span>compute_frequency_sequence()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> compute_frequency_sequence </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>start_input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af861e4a8f7b669619744fe59ca2f73a3" name="af861e4a8f7b669619744fe59ca2f73a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af861e4a8f7b669619744fe59ca2f73a3">&#9670;&#160;</a></span>compute_num_uint64s()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> compute_num_uint64s </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_elements</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a14c0f0b2b6107f2b17eb472d9be9fb03" name="a14c0f0b2b6107f2b17eb472d9be9fb03"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14c0f0b2b6107f2b17eb472d9be9fb03">&#9670;&#160;</a></span>CUDA_KERNEL_LOOP() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUDA_KERNEL_LOOP </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">b_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lengths_size</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab331d23c5119efeb513b36fed74c53b0" name="ab331d23c5119efeb513b36fed74c53b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab331d23c5119efeb513b36fed74c53b0">&#9670;&#160;</a></span>CUDA_KERNEL_LOOP() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUDA_KERNEL_LOOP </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">r</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lengths_size</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa5a76157eb45b9bd4159a548e8a73ce6" name="aa5a76157eb45b9bd4159a548e8a73ce6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5a76157eb45b9bd4159a548e8a73ce6">&#9670;&#160;</a></span>dense_to_jagged_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> dense_to_jagged_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dense</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; at::SymInt &gt;</td>          <td class="paramname"><span class="paramname"><em>total_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aee340827dbc6c104a400c30f47f3ee3b" name="aee340827dbc6c104a400c30f47f3ee3b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee340827dbc6c104a400c30f47f3ee3b">&#9670;&#160;</a></span>dequantize_load() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; dequantize_load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> *</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a74358134402be54c82696697fe766b9a" name="a74358134402be54c82696697fe766b9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74358134402be54c82696697fe766b9a">&#9670;&#160;</a></span>dequantize_load() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; dequantize_load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaed854f05a4542637ac342bfab57bdc7" name="aaed854f05a4542637ac342bfab57bdc7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaed854f05a4542637ac342bfab57bdc7">&#9670;&#160;</a></span>dequantize_load() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; dequantize_load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c388276a962d14b3070dc55202eaf66" name="a0c388276a962d14b3070dc55202eaf66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c388276a962d14b3070dc55202eaf66">&#9670;&#160;</a></span>dequantize_packed_hfp8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> dequantize_packed_hfp8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>vals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96be7f5b4c81d93bf024348e7b85e364" name="a96be7f5b4c81d93bf024348e7b85e364"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96be7f5b4c81d93bf024348e7b85e364">&#9670;&#160;</a></span>dequantize_permuted_int2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half16</a> dequantize_permuted_int2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2cf47d59251a0840fd370a95fa371681" name="a2cf47d59251a0840fd370a95fa371681"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cf47d59251a0840fd370a95fa371681">&#9670;&#160;</a></span>dequantize_permuted_int4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6">half8</a> dequantize_permuted_int4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adec3504b0909c4380da3c0aac89055de" name="adec3504b0909c4380da3c0aac89055de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adec3504b0909c4380da3c0aac89055de">&#9670;&#160;</a></span>dequantize_permuted_int8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b">half4</a> dequantize_permuted_int8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>packedVals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac827cf6cd0f063a6747deaff14e4902d" name="ac827cf6cd0f063a6747deaff14e4902d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac827cf6cd0f063a6747deaff14e4902d">&#9670;&#160;</a></span>direct_mapped_lru_cache_populate_byte_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> direct_mapped_lru_cache_populate_byte_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_miss_timestamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03949dd527b81758e43a4b48800c3bc6" name="a03949dd527b81758e43a4b48800c3bc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03949dd527b81758e43a4b48800c3bc6">&#9670;&#160;</a></span>direct_mapped_lxu_cache_lookup_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> direct_mapped_lxu_cache_lookup_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e5f0f7703057bbda166a7723b16e6ef" name="a1e5f0f7703057bbda166a7723b16e6ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e5f0f7703057bbda166a7723b16e6ef">&#9670;&#160;</a></span>div_round_up()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__host__</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> div_round_up </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef6bada16cf81832eb1e594eb47875d8" name="aef6bada16cf81832eb1e594eb47875d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef6bada16cf81832eb1e594eb47875d8">&#9670;&#160;</a></span>DivMod()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a8d2f3cd432a3bf2de49086fb33ef71cb">fd_num_warps_per_list</a> DivMod </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">global_warp_id</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">reinterpret_cast</a>&lt; <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> * &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>list_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">reinterpret_cast</a>&lt; <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> * &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>warp_id</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a86a8cc18b54f6986ec4faeec0b223907" name="a86a8cc18b54f6986ec4faeec0b223907"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a86a8cc18b54f6986ec4faeec0b223907">&#9670;&#160;</a></span>dummy_packed_accessor32()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ndim, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = at::DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, ndim, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a> &gt; dummy_packed_accessor32 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeb6f64d8ceb0189b03aa6808b97e8b16" name="aeb6f64d8ceb0189b03aa6808b97e8b16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb6f64d8ceb0189b03aa6808b97e8b16">&#9670;&#160;</a></span>dummy_packed_accessor64()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ndim, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> PtrTraits = at::DefaultPtrTraits&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, ndim, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">PtrTraits</a> &gt; dummy_packed_accessor64 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae586c9948dba8a67abf44ada58425fba" name="ae586c9948dba8a67abf44ada58425fba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae586c9948dba8a67abf44ada58425fba">&#9670;&#160;</a></span>embedding_bag_rowwise_prune()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; embedding_bag_rowwise_prune </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indicator</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>threshold</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::ScalarType</td>          <td class="paramname"><span class="paramname"><em>compressed_indices_dtype</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>abs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>min_non_pruned_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>min_save_ratio</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa1807fa25793e61743b75d27db063cc" name="aaa1807fa25793e61743b75d27db063cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa1807fa25793e61743b75d27db063cc">&#9670;&#160;</a></span>embedding_inplace_update_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> embedding_inplace_update_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_table_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_row_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::nullopt</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::nullopt</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3e9e1ce0f6340f233ef6ae8934454cf" name="af3e9e1ce0f6340f233ef6ae8934454cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3e9e1ce0f6340f233ef6ae8934454cf">&#9670;&#160;</a></span>embedding_inplace_update_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> embedding_inplace_update_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1 &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1 &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>update_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>update_table_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>update_row_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>update_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54bf7e9b54b5263cf039100cda517c34" name="a54bf7e9b54b5263cf039100cda517c34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54bf7e9b54b5263cf039100cda517c34">&#9670;&#160;</a></span>embedding_inplace_update_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> embedding_inplace_update_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_table_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_row_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::nullopt</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::nullopt</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Embedding tables inplace updates with absolute values (idempotent guarantee)</p>
+<p>dev_weights: the loaded tables on device in TBE format uvm_weights: the loaded tables on UVM in TBE format weights_placements: placements for each table weights_offsets: physical offsets for each table weights_tys: weight types for each table D_offsets: table dimensions update_weights: new update weights tensor in TBE format update_table_idx: table indices for every new row update_row_idx: row indices for every new row update_offsets: offsets of new update weights row_alignment: alignment byte for embedding row lxu_cache_weights: the loaded cache weights lxu_cache_locations: the loaded cache location info</p>
+<p>it's guaranteed from upper service level that each row of table will only receive one update at a time.</p>
+<p>This function has embedding update parameters (update_weights, update_table_idx, updata_offsets) and delta embedding weights on the CUDA devices. </p>
+
+</div>
+</div>
+<a id="aa8eb0fcd765dc4580084f6d098604e0d" name="aa8eb0fcd765dc4580084f6d098604e0d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8eb0fcd765dc4580084f6d098604e0d">&#9670;&#160;</a></span>exclusive_scan_ptrs_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> exclusive_scan_ptrs_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>N</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">U</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02fab30a12d9d6ee6e6ae68bc8041481" name="a02fab30a12d9d6ee6e6ae68bc8041481"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02fab30a12d9d6ee6e6ae68bc8041481">&#9670;&#160;</a></span>expand_into_jagged_permute_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> expand_into_jagged_permute_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0e41e402bfba1e346c6dcc610252e94b" name="a0e41e402bfba1e346c6dcc610252e94b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e41e402bfba1e346c6dcc610252e94b">&#9670;&#160;</a></span>FBGEMM_GPU_ENUM_REGISTER_START()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_GPU_ENUM_REGISTER_START </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uvm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cudaMemory</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Advise</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb046dd929c4c4190894087e0952b6ad" name="acb046dd929c4c4190894087e0952b6ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb046dd929c4c4190894087e0952b6ad">&#9670;&#160;</a></span>float16_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float16_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab696723995ed599860851113bfdae05" name="aab696723995ed599860851113bfdae05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab696723995ed599860851113bfdae05">&#9670;&#160;</a></span>float16_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float16_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a245cd4874d44db0533c14f1e5da13b0d" name="a245cd4874d44db0533c14f1e5da13b0d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a245cd4874d44db0533c14f1e5da13b0d">&#9670;&#160;</a></span>float1_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float1_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3ec9af370f9f9997a31175d653701b82" name="a3ec9af370f9f9997a31175d653701b82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ec9af370f9f9997a31175d653701b82">&#9670;&#160;</a></span>float1_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float1_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a75186b0bdaba58d01566eec48d2f6602" name="a75186b0bdaba58d01566eec48d2f6602"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a75186b0bdaba58d01566eec48d2f6602">&#9670;&#160;</a></span>float2_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float2_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0397156c968ae38da1e433bfd50d3a3" name="aa0397156c968ae38da1e433bfd50d3a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0397156c968ae38da1e433bfd50d3a3">&#9670;&#160;</a></span>float2_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float2_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7aaeb2b2ad68d85c51fb2b8697c70cc4" name="a7aaeb2b2ad68d85c51fb2b8697c70cc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7aaeb2b2ad68d85c51fb2b8697c70cc4">&#9670;&#160;</a></span>float4_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float4_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf07e886eabd113338425ed288c06a7b" name="adf07e886eabd113338425ed288c06a7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf07e886eabd113338425ed288c06a7b">&#9670;&#160;</a></span>float4_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float4_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa292f064d1126228ac0d10457722616c" name="aa292f064d1126228ac0d10457722616c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa292f064d1126228ac0d10457722616c">&#9670;&#160;</a></span>float8_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float8_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abca50cf5035e82d7992586eac7b744cf" name="abca50cf5035e82d7992586eac7b744cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abca50cf5035e82d7992586eac7b744cf">&#9670;&#160;</a></span>float8_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> float8_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae983a889f16302029fcc4e5fcd5ce34f" name="ae983a889f16302029fcc4e5fcd5ce34f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae983a889f16302029fcc4e5fcd5ce34f">&#9670;&#160;</a></span>float_or_half_to_fusednbitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> float_or_half_to_fusednbitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9330d767d66b257d1ffa28c67775b38e" name="a9330d767d66b257d1ffa28c67775b38e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9330d767d66b257d1ffa28c67775b38e">&#9670;&#160;</a></span>float_to_fusednbitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> float_to_fusednbitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9710845f2dffae8b40b17d49c169976b" name="a9710845f2dffae8b40b17d49c169976b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9710845f2dffae8b40b17d49c169976b">&#9670;&#160;</a></span>float_to_hfp8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> float_to_hfp8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>val_fp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>max_pos</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46f430eb3d28bcd3fed6fbc61dec3bda" name="a46f430eb3d28bcd3fed6fbc61dec3bda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46f430eb3d28bcd3fed6fbc61dec3bda">&#9670;&#160;</a></span>FloatToBFloat16Quantized_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> FloatToBFloat16Quantized_ref </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a></td>          <td class="paramname"><span class="paramname"><em>numel</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint16_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a525ef518134e136f23ab964d45dc23" name="a5a525ef518134e136f23ab964d45dc23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a525ef518134e136f23ab964d45dc23">&#9670;&#160;</a></span>FloatToFP8RowwiseQuantized_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> FloatToFP8RowwiseQuantized_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2287d510f303567f2d28d743aa716b6" name="af2287d510f303567f2d28d743aa716b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2287d510f303567f2d28d743aa716b6">&#9670;&#160;</a></span>for()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">for </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae7fdacc8f9e0ec9e1ede8102876ab537" name="ae7fdacc8f9e0ec9e1ede8102876ab537"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae7fdacc8f9e0ec9e1ede8102876ab537">&#9670;&#160;</a></span>FP8rowwise_to_float_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> FP8rowwise_to_float_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>forward</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>output_dtype</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a389ed2b83ea0f408fe19fbb46770c610" name="a389ed2b83ea0f408fe19fbb46770c610"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a389ed2b83ea0f408fe19fbb46770c610">&#9670;&#160;</a></span>fused8bitrowwise_to_half_cpu_out()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; fused8bitrowwise_to_half_cpu_out </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9209d9d3ea127b5941dcab75bbfd39c" name="af9209d9d3ea127b5941dcab75bbfd39c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9209d9d3ea127b5941dcab75bbfd39c">&#9670;&#160;</a></span>generic_histogram_binning_calibration_by_feature_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; generic_histogram_binning_calibration_by_feature_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_boundaries</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4296f0fdcb9a3dcfdd67549340e8f38c" name="a4296f0fdcb9a3dcfdd67549340e8f38c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4296f0fdcb9a3dcfdd67549340e8f38c">&#9670;&#160;</a></span>get_group_index_select_cols_per_warp()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> get_group_index_select_cols_per_warp </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae554e4e9d8789449846323c52f840fe8" name="ae554e4e9d8789449846323c52f840fe8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae554e4e9d8789449846323c52f840fe8">&#9670;&#160;</a></span>get_nvlink_matrix()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="topology__utils_8h.html#ada7183ec06808ddb73d8f1a65cd8f7ae">AdjacencyMatrix</a>&lt; <a class="el" href="topology__utils_8h.html#a434a916b92f4caf48f14d480c6aa845a">Links</a> &gt; get_nvlink_matrix </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7d6b4d86c0ce57c3af88ea03123fdb4" name="ac7d6b4d86c0ce57c3af88ea03123fdb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7d6b4d86c0ce57c3af88ea03123fdb4">&#9670;&#160;</a></span>getScalarType()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::ScalarType getScalarType </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a47b4476e5f749d63e15d2f8e55be833e">SparseType</a></td>          <td class="paramname"><span class="paramname"><em>dtype</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7dbc3a3bde83bfe7a18b720197f0f830" name="a7dbc3a3bde83bfe7a18b720197f0f830"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7dbc3a3bde83bfe7a18b720197f0f830">&#9670;&#160;</a></span>getSparseType()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a47b4476e5f749d63e15d2f8e55be833e">SparseType</a> getSparseType </td>
+          <td>(</td>
+          <td class="paramtype">at::ScalarType</td>          <td class="paramname"><span class="paramname"><em>dtype</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33cd874aab109dc15436869064c3d689" name="a33cd874aab109dc15436869064c3d689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33cd874aab109dc15436869064c3d689">&#9670;&#160;</a></span>group_index_select_dim0_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">torch::autograd::variable_list group_index_select_dim0_gpu </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>input_group</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>indices_group</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a213539d8845a20efd90e93fed16f1090" name="a213539d8845a20efd90e93fed16f1090"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a213539d8845a20efd90e93fed16f1090">&#9670;&#160;</a></span>group_index_select_dim0_gpu_backward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">torch::autograd::variable_list group_index_select_dim0_gpu_backward_meta </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>all_inputs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::SymIntArrayRef</td>          <td class="paramname"><span class="paramname"><em>output_shape_group_ref</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abda14dada6ae2b39b175ed52824dbfa5" name="abda14dada6ae2b39b175ed52824dbfa5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abda14dada6ae2b39b175ed52824dbfa5">&#9670;&#160;</a></span>group_index_select_dim0_gpu_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">torch::autograd::variable_list group_index_select_dim0_gpu_impl </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>all_indices_input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>group_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d89670eae5b860788cb14175f01ce7e" name="a8d89670eae5b860788cb14175f01ce7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d89670eae5b860788cb14175f01ce7e">&#9670;&#160;</a></span>group_index_select_dim0_gpu_impl_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">torch::autograd::variable_list group_index_select_dim0_gpu_impl_meta </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>all_indices_input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>group_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4851777dc16c28c94a2cc9b58d3923c" name="ac4851777dc16c28c94a2cc9b58d3923c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4851777dc16c28c94a2cc9b58d3923c">&#9670;&#160;</a></span>group_index_select_dim0_unpack()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::pair&lt; std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; group_index_select_dim0_unpack </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorList</td>          <td class="paramname"><span class="paramname"><em>all_indices_input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>group_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a394db33cacde2480607d48fe227274ef" name="a394db33cacde2480607d48fe227274ef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a394db33cacde2480607d48fe227274ef">&#9670;&#160;</a></span>group_index_select_or_add_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> group_index_select_or_add_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>input_ptrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>indices_ptrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>warp_offsets_group</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *</td>          <td class="paramname"><span class="paramname"><em>num_cols_group</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::ScalarType &amp;</td>          <td class="paramname"><span class="paramname"><em>input_scalar_type</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::ScalarType &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_scalar_type</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::DeviceIndex &amp;</td>          <td class="paramname"><span class="paramname"><em>device</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_work_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_num_warps</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>group_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_index_select</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>use_var_cols</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a545dc5567b0a08c31f65e2fc7ae21749" name="a545dc5567b0a08c31f65e2fc7ae21749"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a545dc5567b0a08c31f65e2fc7ae21749">&#9670;&#160;</a></span>half_to_fusednbitrowwise_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> half_to_fusednbitrowwise_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bit_rate</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3ff3d0d7b40d8f2909fa6b35d64d250d" name="a3ff3d0d7b40d8f2909fa6b35d64d250d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ff3d0d7b40d8f2909fa6b35d64d250d">&#9670;&#160;</a></span>hfma2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a> hfma2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>b</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a></td>          <td class="paramname"><span class="paramname"><em>c</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f35a2d3a2ede2e58e7986f8c2c757ec" name="a1f35a2d3a2ede2e58e7986f8c2c757ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f35a2d3a2ede2e58e7986f8c2c757ec">&#9670;&#160;</a></span>hfp8_to_float()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C10_HOST_DEVICE</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> hfp8_to_float </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>          <td class="paramname"><span class="paramname"><em>hfp8_val</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>ebits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a499764d7156d294219e3ae2629ae229f" name="a499764d7156d294219e3ae2629ae229f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a499764d7156d294219e3ae2629ae229f">&#9670;&#160;</a></span>histogram_binning_calibration_by_feature_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; histogram_binning_calibration_by_feature_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_bins</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>upper_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac639ce2e71982d5d1da0a30c92858aa8" name="ac639ce2e71982d5d1da0a30c92858aa8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac639ce2e71982d5d1da0a30c92858aa8">&#9670;&#160;</a></span>histogram_binning_calibration_by_feature_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; histogram_binning_calibration_by_feature_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>segment_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_segments</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_bins</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>upper_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1b19059704ba1911efbedf4adcbb0ee3" name="a1b19059704ba1911efbedf4adcbb0ee3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b19059704ba1911efbedf4adcbb0ee3">&#9670;&#160;</a></span>histogram_binning_calibration_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; histogram_binning_calibration_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>logit</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_examples</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bin_num_positives</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>positive_weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>lower_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>upper_bound</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_in_use_after</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>bin_ctr_weight_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab50e28187eb7fdf5b8cd74cd8150b025" name="ab50e28187eb7fdf5b8cd74cd8150b025"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab50e28187eb7fdf5b8cd74cd8150b025">&#9670;&#160;</a></span>hmul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half</a> hmul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a257181e3db25da8e4d1b4ef73976271d" name="a257181e3db25da8e4d1b4ef73976271d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a257181e3db25da8e4d1b4ef73976271d">&#9670;&#160;</a></span>hmul_short2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__forceinline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a> hmul_short2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>lhs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half</a></td>          <td class="paramname"><span class="paramname"><em>rhs</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6080a87e4588877fbbdd8a03d16d927d" name="a6080a87e4588877fbbdd8a03d16d927d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6080a87e4588877fbbdd8a03d16d927d">&#9670;&#160;</a></span>if() <span class="overload">[1/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ab540864a8f4d5cfb95d168df6ff1ac51">b</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>B</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a32dace4feb1fa305053fd440163ba422" name="a32dace4feb1fa305053fd440163ba422"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32dace4feb1fa305053fd440163ba422">&#9670;&#160;</a></span>if() <span class="overload">[2/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#afce91df3fd14c65d1d464b891004b1da">curr_bin_num_examples</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae198c10fa781aa859c0e8666fc10063b" name="ae198c10fa781aa859c0e8666fc10063b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae198c10fa781aa859c0e8666fc10063b">&#9670;&#160;</a></span>if() <span class="overload">[3/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">i</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>input_size</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4b4f7604af9accc2a43a8e060b6145e7" name="a4b4f7604af9accc2a43a8e060b6145e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b4f7604af9accc2a43a8e060b6145e7">&#9670;&#160;</a></span>if() <span class="overload">[4/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a> &gt;=<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_lengths</a> -</td>          <td class="paramname"><span class="paramname"><em>1</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a29ef435892df0dc6cd3fa9769486e659" name="a29ef435892df0dc6cd3fa9769486e659"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29ef435892df0dc6cd3fa9769486e659">&#9670;&#160;</a></span>if() <span class="overload">[5/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>num_logits</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d72e092775be40f6a57865b410d55e9" name="a1d72e092775be40f6a57865b410d55e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d72e092775be40f6a57865b410d55e9">&#9670;&#160;</a></span>if() <span class="overload">[6/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>num_lists</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e204163946d36c19beef5443a1b71b6" name="a9e204163946d36c19beef5443a1b71b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e204163946d36c19beef5443a1b71b6">&#9670;&#160;</a></span>if() <span class="overload">[7/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a4e34aefb3cc5403a07c020131077100a">n</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>N</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2276128422f0c744cc68659b731d53a" name="ac2276128422f0c744cc68659b731d53a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2276128422f0c744cc68659b731d53a">&#9670;&#160;</a></span>if() <span class="overload">[8/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ac588c52c993fa6f169cb54d418ea584c">next_offset</a></td>          <td class="paramname"><span class="paramname"><span class="paramdefsep"> = </span><span class="paramdefval">=&#160;<a class="el" href="#a5774000010ec731b390787b3b5f72868">curr_offset</a>&#160;+&#160;1</span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa41e0708c4b465d4a89e0c1de6a60dd1" name="aa41e0708c4b465d4a89e0c1de6a60dd1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa41e0708c4b465d4a89e0c1de6a60dd1">&#9670;&#160;</a></span>if() <span class="overload">[9/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a34e6956031d1fc5c0f8df5fb432bcfbd">per_sample_weights_addrs</a></td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0904756703f278e8c03d0be1918211b" name="ad0904756703f278e8c03d0be1918211b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0904756703f278e8c03d0be1918211b">&#9670;&#160;</a></span>if() <span class="overload">[10/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">run_id</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>sorted_linear_indices_num_runs</em>[0]</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6453091b8359fcc2da599396bb27f52" name="aa6453091b8359fcc2da599396bb27f52"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6453091b8359fcc2da599396bb27f52">&#9670;&#160;</a></span>if() <span class="overload">[11/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">run_id</a> &gt;=sorted_linear_indices_run.</td>          <td class="paramname"><span class="paramname"><em>size</em>0</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaf49df4f26b7eff1308265a096c0c768" name="aaf49df4f26b7eff1308265a096c0c768"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf49df4f26b7eff1308265a096c0c768">&#9670;&#160;</a></span>if() <span class="overload">[12/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a4478543eef2b1a98a328e4c634b5f6ad">SL</a></td>          <td class="paramname"><span class="paramname"><span class="paramdefsep"> = </span><span class="paramdefval">=&#160;0</span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a426625b7d5c06c4059e34784c1fdd74f" name="a426625b7d5c06c4059e34784c1fdd74f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a426625b7d5c06c4059e34784c1fdd74f">&#9670;&#160;</a></span>if() <span class="overload">[13/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#aa80cbea4714c980d14626fd87c9287a4">t</a> &gt;=<a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>||<a class="el" href="#ab540864a8f4d5cfb95d168df6ff1ac51">b</a> &gt;=</td>          <td class="paramname"><span class="paramname"><em>batch_size_per_feature</em>[t]</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1958ec7365ff8575f7973e15353c0121" name="a1958ec7365ff8575f7973e15353c0121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1958ec7365ff8575f7973e15353c0121">&#9670;&#160;</a></span>if() <span class="overload">[14/14]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">if </td>
+          <td>(</td>
+          <td class="paramtype">threadIdx.</td>          <td class="paramname"><span class="paramname"><em>x</em><span class="paramdefsep"> = </span><span class="paramdefval">=&#160;0</span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae86238f4ca864fb4ea41318ece747ab4" name="ae86238f4ca864fb4ea41318ece747ab4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae86238f4ca864fb4ea41318ece747ab4">&#9670;&#160;</a></span>inclusive_sum_scan_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ITEMS_PER_THREAD, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_THREADS_PER_BLOCK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__inline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> inclusive_sum_scan_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>(&amp;)</td>          <td class="paramname"><span class="paramname"><em>arr</em>[ITEMS_PER_THREAD], </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> cub::BlockScan&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, <a class="el" href="metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517">NUM_THREADS_PER_BLOCK</a> &gt;::TempStorage &amp;</td>          <td class="paramname"><span class="paramname"><em>temp_storage</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>block_flags</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">volatile</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_sums</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_prev</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_entries_per_block</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>block_id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_multi_block</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>signal</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>inclusive_sum_scan_kernel performs intra- and inter-thread block sum scan (i.e., prefix sum scan). We use cub::BlockScan to do inclusive sum within thread block and use a waterfall sync method to perform prefix sum across thread block.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">arr</td><td>an array of input values. Its length must be fixed to ITEMS_PER_THREAD </td></tr>
+    <tr><td class="paramname">temp_storage</td><td>a shared memory struct for cub::BlockScan </td></tr>
+    <tr><td class="paramname">block_flags</td><td>a global flag buffer for inter-block sync (must be initialized with zeros) </td></tr>
+    <tr><td class="paramname">block_sums</td><td>a global sum buffer for inter-block sync </td></tr>
+    <tr><td class="paramname">block_prev</td><td>a shared memory pointer for sharing sum from the previous block within a block </td></tr>
+    <tr><td class="paramname">num_entries_per_block</td><td>a number of input entries for this block </td></tr>
+    <tr><td class="paramname">block_id</td><td>a relative thread block ID (the first block that contains the first set of input entries has block_id = 0) </td></tr>
+    <tr><td class="paramname">is_multi_block</td><td>a boolean to indicate if inter-block sum scan has to be performed </td></tr>
+    <tr><td class="paramname">signal</td><td>If the value of block_flags of the previous block is equal to signal, it means that the previous block has written its sum to block_sums. We have thread blocks increment the value of block_flags by one after they write their sums to block_sums. We increment the flag instead of setting the flag to a single value to support multiple sequential inclusive_sum_scan_kernel calls (e.g., in the AUC kernel). signal is the order that inclusive_sum_scan_kernel is called. Since we intialize block_flags with zeros, the signal of the first call should be one. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a80e08c6c5c1ebf2b34c6490eee0e8415" name="a80e08c6c5c1ebf2b34c6490eee0e8415"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80e08c6c5c1ebf2b34c6490eee0e8415">&#9670;&#160;</a></span>index_add_with_unique_indices_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> index_add_with_unique_indices_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>sorted_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>orig_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input_shape</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>consecutive_range_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>consecutive_range_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a543ba161110516ef84a9fbeb83c7af5c" name="a543ba161110516ef84a9fbeb83c7af5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a543ba161110516ef84a9fbeb83c7af5c">&#9670;&#160;</a></span>index_select_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> index_select_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>orig_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>indices_sorted</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a170ff30798a3bcf42cc3f0669f938450" name="a170ff30798a3bcf42cc3f0669f938450"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a170ff30798a3bcf42cc3f0669f938450">&#9670;&#160;</a></span>index_select_dim0_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> index_select_dim0_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>consecutive_range_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>consecutive_range_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>skip_indices_sorting_fwd</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa762379def70fcfe1f15ff2a347af4a9" name="aa762379def70fcfe1f15ff2a347af4a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa762379def70fcfe1f15ff2a347af4a9">&#9670;&#160;</a></span>index_select_scalar_cumsum_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_THREADS_PER_BLOCK, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> MAX_ENTRIES_PER_BLOCK&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_select_scalar_cumsum_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_batches</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>input_batch_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>last_block_num_entries</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>block_flags</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">acc_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_sums</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa79c3b125ba955f02e8ee2e70b1bbd32" name="aa79c3b125ba955f02e8ee2e70b1bbd32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa79c3b125ba955f02e8ee2e70b1bbd32">&#9670;&#160;</a></span>invert_permute_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> invert_permute_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae24b9318a63a9532f426abc0b0e94819" name="ae24b9318a63a9532f426abc0b0e94819"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae24b9318a63a9532f426abc0b0e94819">&#9670;&#160;</a></span>is_aligned()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">class</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> is_aligned </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afdde1bd5a99cc5bcdfaf27b4c42cad7b" name="afdde1bd5a99cc5bcdfaf27b4c42cad7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afdde1bd5a99cc5bcdfaf27b4c42cad7b">&#9670;&#160;</a></span>jagged_1d_to_dense_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_1d_to_dense_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::SymInt</td>          <td class="paramname"><span class="paramname"><em>max_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a70d2cdc82d96c9c4298b57133393a800" name="a70d2cdc82d96c9c4298b57133393a800"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70d2cdc82d96c9c4298b57133393a800">&#9670;&#160;</a></span>jagged_2d_to_dense_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_2d_to_dense_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7c104248a9abcdcdac6bdcac571930a4" name="a7c104248a9abcdcdac6bdcac571930a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c104248a9abcdcdac6bdcac571930a4">&#9670;&#160;</a></span>jagged_2d_to_dense_gpu_backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_2d_to_dense_gpu_backward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Tensor</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56c28427858ea272148bdbfb9f373191" name="a56c28427858ea272148bdbfb9f373191"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56c28427858ea272148bdbfb9f373191">&#9670;&#160;</a></span>jagged_2d_to_dense_gpu_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_2d_to_dense_gpu_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_sequence_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67b19e389f869540bd35510d4e8e7908" name="a67b19e389f869540bd35510d4e8e7908"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67b19e389f869540bd35510d4e8e7908">&#9670;&#160;</a></span>jagged_2d_to_dense_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_2d_to_dense_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::SymInt</td>          <td class="paramname"><span class="paramname"><em>max_sequence_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed181c3885f392fec8c38cdf10266d68" name="aed181c3885f392fec8c38cdf10266d68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed181c3885f392fec8c38cdf10266d68">&#9670;&#160;</a></span>jagged_dense_bmm()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_dense_bmm </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3eec1622180be9b7a31891d5e9f2ba71" name="a3eec1622180be9b7a31891d5e9f2ba71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3eec1622180be9b7a31891d5e9f2ba71">&#9670;&#160;</a></span>jagged_dense_bmm_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_bmm_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4961acd2615018dff4fdf1390158f0a4" name="a4961acd2615018dff4fdf1390158f0a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4961acd2615018dff4fdf1390158f0a4">&#9670;&#160;</a></span>jagged_dense_bmm_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_bmm_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a022cdaaee01f619cf0cb7b29d80cbc65" name="a022cdaaee01f619cf0cb7b29d80cbc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a022cdaaee01f619cf0cb7b29d80cbc65">&#9670;&#160;</a></span>jagged_dense_bmm_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_bmm_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c32f4b4ccfdef9cf63d463cb235ec38" name="a6c32f4b4ccfdef9cf63d463cb235ec38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c32f4b4ccfdef9cf63d463cb235ec38">&#9670;&#160;</a></span>jagged_dense_bmm_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_dense_bmm_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 3 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a47e4d714a08316066470d979f97f1d81" name="a47e4d714a08316066470d979f97f1d81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a47e4d714a08316066470d979f97f1d81">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_add_jagged_output()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_dense_elementwise_add_jagged_output </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a10611541bdce9c65bfe48a01474d1725" name="a10611541bdce9c65bfe48a01474d1725"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10611541bdce9c65bfe48a01474d1725">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_add_jagged_output_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_dense_elementwise_add_jagged_output_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dense_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>dense_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56cac54ea3d7672c629010018ba59568" name="a56cac54ea3d7672c629010018ba59568"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56cac54ea3d7672c629010018ba59568">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_add_jagged_output_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_dense_elementwise_add_jagged_output_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>y_1</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab421ce372347f826b7e7ff9e35f26c93" name="ab421ce372347f826b7e7ff9e35f26c93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab421ce372347f826b7e7ff9e35f26c93">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_add_jagged_output_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_dense_elementwise_add_jagged_output_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a319b3f5f33bec0aff79f0ee990483f3d" name="a319b3f5f33bec0aff79f0ee990483f3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a319b3f5f33bec0aff79f0ee990483f3d">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_jagged_output_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_dense_dense_elementwise_jagged_output_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a></td>          <td class="paramname"><span class="paramname"><em>f</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adfb04060c9eecdadcf59b3c15d5bca08" name="adfb04060c9eecdadcf59b3c15d5bca08"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfb04060c9eecdadcf59b3c15d5bca08">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_jagged_output_matches_opt()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> jagged_dense_dense_elementwise_jagged_output_matches_opt </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>num_jagged_dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0_reshaped</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_1_reshaped</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_values</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac40d60c62b0d176a962cdad964e34f6" name="aac40d60c62b0d176a962cdad964e34f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac40d60c62b0d176a962cdad964e34f6">&#9670;&#160;</a></span>jagged_dense_dense_elementwise_jagged_output_opt_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_dense_dense_elementwise_jagged_output_opt_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a></td>          <td class="paramname"><span class="paramname"><em>f</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16d84a11c2e32cb0064721354fb190b7" name="a16d84a11c2e32cb0064721354fb190b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16d84a11c2e32cb0064721354fb190b7">&#9670;&#160;</a></span>jagged_dense_elementwise_add_jagged_output_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_elementwise_add_jagged_output_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; at::Tensor &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff88b44d096bd7a039dca72a5855198c" name="aff88b44d096bd7a039dca72a5855198c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff88b44d096bd7a039dca72a5855198c">&#9670;&#160;</a></span>jagged_dense_elementwise_add_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_elementwise_add_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a124d128a82ffb0342ce597d0325060fb" name="a124d128a82ffb0342ce597d0325060fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a124d128a82ffb0342ce597d0325060fb">&#9670;&#160;</a></span>jagged_dense_elementwise_jagged_output_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_dense_elementwise_jagged_output_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a></td>          <td class="paramname"><span class="paramname"><em>f</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aded7d8ce8ffbcce568c498fb32a7d071" name="aded7d8ce8ffbcce568c498fb32a7d071"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aded7d8ce8ffbcce568c498fb32a7d071">&#9670;&#160;</a></span>jagged_dense_elementwise_jagged_output_opt_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_dense_elementwise_jagged_output_opt_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a></td>          <td class="paramname"><span class="paramname"><em>f</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6de8f2f64f7d90ab1997df02470a9564" name="a6de8f2f64f7d90ab1997df02470a9564"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6de8f2f64f7d90ab1997df02470a9564">&#9670;&#160;</a></span>jagged_dense_elementwise_mul_backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_dense_elementwise_mul_backward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abfbf6c239d283084ed1c68f18ea24af5" name="abfbf6c239d283084ed1c68f18ea24af5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abfbf6c239d283084ed1c68f18ea24af5">&#9670;&#160;</a></span>jagged_dense_elementwise_mul_backward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_dense_elementwise_mul_backward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa297ab58f55125d7eb7b040cc4c254b" name="aaa297ab58f55125d7eb7b040cc4c254b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa297ab58f55125d7eb7b040cc4c254b">&#9670;&#160;</a></span>jagged_dense_elementwise_mul_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_elementwise_mul_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac30cb8e7e035c24bf4f6ac15bf1b623a" name="ac30cb8e7e035c24bf4f6ac15bf1b623a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac30cb8e7e035c24bf4f6ac15bf1b623a">&#9670;&#160;</a></span>jagged_dense_elementwise_mul_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_dense_elementwise_mul_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaeeacda7f3587bfe9bf2ecf376dd635e" name="aaeeacda7f3587bfe9bf2ecf376dd635e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaeeacda7f3587bfe9bf2ecf376dd635e">&#9670;&#160;</a></span>jagged_dense_elementwise_mul_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; jagged_dense_elementwise_mul_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aabd8b530d0ac7e5cb96cf19c7eb517e9" name="aabd8b530d0ac7e5cb96cf19c7eb517e9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aabd8b530d0ac7e5cb96cf19c7eb517e9">&#9670;&#160;</a></span>jagged_hash_size_cumsum_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_hash_size_cumsum_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af80524a7d454f6db1c478808e8a659a6" name="af80524a7d454f6db1c478808e8a659a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af80524a7d454f6db1c478808e8a659a6">&#9670;&#160;</a></span>jagged_index_add_2d_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_add_2d_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_dense_input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_output_rows</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Add sequences from input jagged tensor to output jagged tensor based on indices specified in the indices tensor (this function invokes jagged_index_add_2d_kernel) </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">values</td><td>2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">indices</td><td>1D tensor that contains indices to be added in output jagged tensor </td></tr>
+    <tr><td class="paramname">input_offsets</td><td>1D tensor that contains offsets of input jagged tensor </td></tr>
+    <tr><td class="paramname">output_offsets</td><td>1D tensor that contains offsets of output jagged tensor </td></tr>
+    <tr><td class="paramname">num_dense_input_rows</td><td>The total number of rows in the 2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">num_output_rows</td><td>The number of sequences in jagged output tensor </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a53a6da74de342260dcb15c68e9bddfd6" name="a53a6da74de342260dcb15c68e9bddfd6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53a6da74de342260dcb15c68e9bddfd6">&#9670;&#160;</a></span>jagged_index_add_2d_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_add_2d_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_dense_input_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_output_rows</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Add sequences from input jagged tensor to output jagged tensor based on indices specified in the indices tensor (host function for dispatching jagged_index_add_2d_kernel to GPU) </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">values</td><td>2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">indices</td><td>1D tensor that contains indices to be added in output jagged tensor </td></tr>
+    <tr><td class="paramname">input_offsets</td><td>1D tensor that contains offsets of input jagged tensor </td></tr>
+    <tr><td class="paramname">output_offsets</td><td>1D tensor that contains offsets of output jagged tensor </td></tr>
+    <tr><td class="paramname">num_dense_input_rows</td><td>The total number of rows in the 2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">num_output_rows</td><td>The number of sequences in jagged output tensor </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a8e1ed94256304ab16b948117d5315ee2" name="a8e1ed94256304ab16b948117d5315ee2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e1ed94256304ab16b948117d5315ee2">&#9670;&#160;</a></span>jagged_index_add_2d_forward_v2_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_add_2d_forward_v2_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_output_rows</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab571c6d5519c86bddfe58835c8209a4c" name="ab571c6d5519c86bddfe58835c8209a4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab571c6d5519c86bddfe58835c8209a4c">&#9670;&#160;</a></span>jagged_index_add_2d_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_index_add_2d_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca95193cb0cc3db7030f18cb59c6cc33" name="aca95193cb0cc3db7030f18cb59c6cc33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca95193cb0cc3db7030f18cb59c6cc33">&#9670;&#160;</a></span>jagged_index_select_2d()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_index_select_2d </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Call the autograd function of jagged_index_select_2d</p>
+<p>Forward: Copy sequences from input jagged tensor based on indices specified in the indices tensor to output jagged tensor</p>
+<p>Backward: Add sequences from output gradient jagged tensor to input gradient jagged tensor based on indices specified in the indices tensor</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">values</td><td>2D dense value of input jagged tensor </td></tr>
+    <tr><td class="paramname">lengths</td><td>1D tensor that contains sequence lengths of input jagged tensor </td></tr>
+    <tr><td class="paramname">indices</td><td>1D tensor that contains indices to be selected from input jagged tensor </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a71a54a14d90862afc8e5fe03e0c9ed8f" name="a71a54a14d90862afc8e5fe03e0c9ed8f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71a54a14d90862afc8e5fe03e0c9ed8f">&#9670;&#160;</a></span>jagged_index_select_2d_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_select_2d_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_dense_output_rows</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Copy sequences from input jagged tensor based on indices specified in the indices tensor to output jagged tensor (this function invokes jagged_index_select_2d_kernel) </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">values</td><td>2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">indices</td><td>1D tensor that contains indices to be selected from input jagged tensor </td></tr>
+    <tr><td class="paramname">input_offsets</td><td>1D tensor that contains offsets of input jagged tensor </td></tr>
+    <tr><td class="paramname">output_offsets</td><td>1D tensor that contains offsets of output jagged tensor </td></tr>
+    <tr><td class="paramname">num_dense_output_rows</td><td>The total number of rows in the 2D dense value tensor of output jagged tensor </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="acb5a744fbd29c8a3a25621c2850686c1" name="acb5a744fbd29c8a3a25621c2850686c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb5a744fbd29c8a3a25621c2850686c1">&#9670;&#160;</a></span>jagged_index_select_2d_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_select_2d_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_dense_output_rows</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Copy sequences from input jagged tensor based on indices specified in the indices tensor to an output jagged tensor (host function for dispatching jagged_index_select_2d_kernel to GPU) </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">values</td><td>2D dense value tensor of input jagged tensor </td></tr>
+    <tr><td class="paramname">indices</td><td>1D tensor that contains indices to be selected from output jagged tensor </td></tr>
+    <tr><td class="paramname">input_offsets</td><td>1D tensor that contains offsets of input jagged tensor </td></tr>
+    <tr><td class="paramname">output_offsets</td><td>1D tensor that contains offsets of output jagged tensor </td></tr>
+    <tr><td class="paramname">num_dense_output_rows</td><td>The total number of rows in the 2D dense value tensor of output jagged tensor </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="acd9af0fd221ab3fc330ca9f278433a3f" name="acd9af0fd221ab3fc330ca9f278433a3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd9af0fd221ab3fc330ca9f278433a3f">&#9670;&#160;</a></span>jagged_index_select_2d_forward_v2_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_index_select_2d_forward_v2_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab1228b502a424869c5a7353f9fe52316" name="ab1228b502a424869c5a7353f9fe52316"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab1228b502a424869c5a7353f9fe52316">&#9670;&#160;</a></span>jagged_index_select_2d_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_index_select_2d_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae94c97196a7c392695b64f0db906ff4c" name="ae94c97196a7c392695b64f0db906ff4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae94c97196a7c392695b64f0db906ff4c">&#9670;&#160;</a></span>jagged_jagged_bmm()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_jagged_bmm </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b01fcfb83764115f38eeab21c28a6a3" name="a5b01fcfb83764115f38eeab21c28a6a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b01fcfb83764115f38eeab21c28a6a3">&#9670;&#160;</a></span>jagged_jagged_bmm_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_jagged_bmm_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0793a1a7b328d1351b6036d0be6a9c3d" name="a0793a1a7b328d1351b6036d0be6a9c3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0793a1a7b328d1351b6036d0be6a9c3d">&#9670;&#160;</a></span>jagged_jagged_bmm_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_jagged_bmm_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2722fce931f20d923aba071236be4c87" name="a2722fce931f20d923aba071236be4c87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2722fce931f20d923aba071236be4c87">&#9670;&#160;</a></span>jagged_jagged_bmm_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_jagged_bmm_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33c7044a13254607610928c6825738b1" name="a33c7044a13254607610928c6825738b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33c7044a13254607610928c6825738b1">&#9670;&#160;</a></span>jagged_jagged_bmm_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_jagged_bmm_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 3 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fa5d329cfcc18c3304ba018919004ff" name="a8fa5d329cfcc18c3304ba018919004ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fa5d329cfcc18c3304ba018919004ff">&#9670;&#160;</a></span>jagged_jagged_elementwise_dense_output_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_jagged_elementwise_dense_output_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>x_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>y_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a></td>          <td class="paramname"><span class="paramname"><em>f</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static_cast</a>&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>&gt;(0)</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab17aab73b431292434fd0d642a538960" name="ab17aab73b431292434fd0d642a538960"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab17aab73b431292434fd0d642a538960">&#9670;&#160;</a></span>jagged_slice()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_slice </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>slice_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e6521d00a6f81ad8ad7f7d38eef1aea" name="a4e6521d00a6f81ad8ad7f7d38eef1aea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e6521d00a6f81ad8ad7f7d38eef1aea">&#9670;&#160;</a></span>jagged_slice_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_slice_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>x_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>src_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>tgt_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_output_rows</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>slice_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>fill_zeros</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Slice the jagged dim to max length from slice_length, from start point <code>start</code>. This is a jagged -&gt; jagged op </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">x_values</td><td>- X values of shape B * J_DIM where J_DIM is jagged dim </td></tr>
+    <tr><td class="paramname">x_lengths</td><td>- length along jagged dim </td></tr>
+    <tr><td class="paramname">src_start</td><td>- start of slice operation from the src tensor </td></tr>
+    <tr><td class="paramname">output_lengths</td><td>- length of jagged dim for output tensor </td></tr>
+    <tr><td class="paramname">tgt_start</td><td>- position to start filling in sliced values from source </td></tr>
+    <tr><td class="paramname">num_output_rows</td><td>- output dense dim </td></tr>
+    <tr><td class="paramname">slice_length</td><td>- length of jagged dim to slice </td></tr>
+    <tr><td class="paramname">fill_zeros</td><td>- option exists as an optimization, we can reuse the same code path for forward &amp; backward. For backward we need to fill zeros in output tensor but fwd we don't. </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a284b652fdac146671fc324ac57d2ad5d" name="a284b652fdac146671fc324ac57d2ad5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a284b652fdac146671fc324ac57d2ad5d">&#9670;&#160;</a></span>jagged_slice_forward_cpu_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_slice_forward_cpu_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>output_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>tgt_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>src_start</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>slice_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a069ed261b53e7051b85f3e572cad7f7e" name="a069ed261b53e7051b85f3e572cad7f7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a069ed261b53e7051b85f3e572cad7f7e">&#9670;&#160;</a></span>jagged_softmax()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_softmax </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7ba518434a034920e1092bf6d73879fd" name="a7ba518434a034920e1092bf6d73879fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ba518434a034920e1092bf6d73879fd">&#9670;&#160;</a></span>jagged_softmax_backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_backward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a305d9969e73060e49580aab1456ceb35" name="a305d9969e73060e49580aab1456ceb35"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a305d9969e73060e49580aab1456ceb35">&#9670;&#160;</a></span>jagged_softmax_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7101ddaed8357d824a9eeeaff67e5c4c" name="a7101ddaed8357d824a9eeeaff67e5c4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7101ddaed8357d824a9eeeaff67e5c4c">&#9670;&#160;</a></span>jagged_softmax_backward_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_softmax_backward_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt;</td>          <td class="paramname"><span class="paramname"><em>grad_input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad25e4e44afa7169c17e48d726ee0477" name="aad25e4e44afa7169c17e48d726ee0477"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad25e4e44afa7169c17e48d726ee0477">&#9670;&#160;</a></span>jagged_softmax_backward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_backward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a023a8d9db48d27efcd2e77ede6366f5d" name="a023a8d9db48d27efcd2e77ede6366f5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a023a8d9db48d27efcd2e77ede6366f5d">&#9670;&#160;</a></span>jagged_softmax_forward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_forward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab117510dd56fd42f3d774d22633b107f" name="ab117510dd56fd42f3d774d22633b107f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab117510dd56fd42f3d774d22633b107f">&#9670;&#160;</a></span>jagged_softmax_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac14e78d89697f34bcaa7c0a725c8a04a" name="ac14e78d89697f34bcaa7c0a725c8a04a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac14e78d89697f34bcaa7c0a725c8a04a">&#9670;&#160;</a></span>jagged_softmax_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_softmax_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a20e3d96daba045e321717b025f4124cc" name="a20e3d96daba045e321717b025f4124cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a20e3d96daba045e321717b025f4124cc">&#9670;&#160;</a></span>jagged_softmax_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> jagged_softmax_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 2 &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a861454c4383e6a0869a6c007fc498eed" name="a861454c4383e6a0869a6c007fc498eed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a861454c4383e6a0869a6c007fc498eed">&#9670;&#160;</a></span>jagged_to_padded_dense_backward()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor jagged_to_padded_dense_backward </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::SymInt</td>          <td class="paramname"><span class="paramname"><em>total_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8663dcc9727a468507eb75a849ae5820" name="a8663dcc9727a468507eb75a849ae5820"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8663dcc9727a468507eb75a849ae5820">&#9670;&#160;</a></span>jagged_to_padded_dense_backward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_to_padded_dense_backward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::SymInt</td>          <td class="paramname"><span class="paramname"><em>total_L</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4fc6df6df430f9f9a20d7fe9d88dd009" name="a4fc6df6df430f9f9a20d7fe9d88dd009"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4fc6df6df430f9f9a20d7fe9d88dd009">&#9670;&#160;</a></span>jagged_to_padded_dense_forward_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_to_padded_dense_forward_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::SymIntArrayRef</td>          <td class="paramname"><span class="paramname"><em>max_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae45c299345273bf31be20e4893f58c28" name="ae45c299345273bf31be20e4893f58c28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae45c299345273bf31be20e4893f58c28">&#9670;&#160;</a></span>jagged_to_padded_dense_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> jagged_to_padded_dense_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::SymIntArrayRef</td>          <td class="paramname"><span class="paramname"><em>max_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a006273b56cd5a2efd001ad71d801a551" name="a006273b56cd5a2efd001ad71d801a551"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a006273b56cd5a2efd001ad71d801a551">&#9670;&#160;</a></span>jagged_unique_indices_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; jagged_unique_indices_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>hash_size_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d13c6946f45ae31d20aaecbd2316fec" name="a7d13c6946f45ae31d20aaecbd2316fec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d13c6946f45ae31d20aaecbd2316fec">&#9670;&#160;</a></span>keyed_jagged_index_add_dim1_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> keyed_jagged_index_add_dim1_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_batches</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>output_batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a518ef8f85868c32ac832576f8504d9" name="a0a518ef8f85868c32ac832576f8504d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a518ef8f85868c32ac832576f8504d9">&#9670;&#160;</a></span>keyed_jagged_index_select_dim1_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weight_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> has_weights&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> keyed_jagged_index_select_dim1_kernel </td>
+          <td>(</td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weight_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>input</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weight_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_batches</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>input_batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50a64d97045199097d3ff83edaf56a1a" name="a50a64d97045199097d3ff83edaf56a1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50a64d97045199097d3ff83edaf56a1a">&#9670;&#160;</a></span>keyed_jagged_index_select_dim_1_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; keyed_jagged_index_select_dim_1_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9599d315f833a6d562ee1d25d4ee5923" name="a9599d315f833a6d562ee1d25d4ee5923"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9599d315f833a6d562ee1d25d4ee5923">&#9670;&#160;</a></span>lengths_range()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> lengths_range </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>shape</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ace0a963a484e5501c50533122cdecc3c" name="ace0a963a484e5501c50533122cdecc3c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace0a963a484e5501c50533122cdecc3c">&#9670;&#160;</a></span>lengths_range_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> lengths_range_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>shape</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a19280a435704ff4093b148460c37bc84" name="a19280a435704ff4093b148460c37bc84"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a19280a435704ff4093b148460c37bc84">&#9670;&#160;</a></span>lengths_range_out()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp; lengths_range_out </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>shape</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e8721a4003045038e10d3a4c8258c96" name="a9e8721a4003045038e10d3a4c8258c96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e8721a4003045038e10d3a4c8258c96">&#9670;&#160;</a></span>lfu_cache_find_uncached_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::pair&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; lfu_cache_find_uncached_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lfu_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45bb3081a2688f09448ffda6bc5d5f2e" name="a45bb3081a2688f09448ffda6bc5d5f2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45bb3081a2688f09448ffda6bc5d5f2e">&#9670;&#160;</a></span>lfu_cache_populate_byte_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lfu_cache_populate_byte_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lfu_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca510adc64caa635df004e9b419bbb1b" name="aca510adc64caa635df004e9b419bbb1b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca510adc64caa635df004e9b419bbb1b">&#9670;&#160;</a></span>lfu_update_counts_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lfu_update_counts_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unique_indices_count</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lfu_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6eaeebeb996c343db6d076fce7952133" name="a6eaeebeb996c343db6d076fce7952133"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6eaeebeb996c343db6d076fce7952133">&#9670;&#160;</a></span>linearize_cache_indices_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> linearize_cache_indices_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9c7ab59a89fd36f5c07b9c86bdc891c8" name="a9c7ab59a89fd36f5c07b9c86bdc891c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c7ab59a89fd36f5c07b9c86bdc891c8">&#9670;&#160;</a></span>linearize_cache_indices_from_row_idx_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> linearize_cache_indices_from_row_idx_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_table_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>update_row_indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a003948b9ad61509936564075f2cead23" name="a003948b9ad61509936564075f2cead23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a003948b9ad61509936564075f2cead23">&#9670;&#160;</a></span>load_qparams_from_row()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> load_qparams_from_row </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> *</td>          <td class="paramname"><span class="paramname"><em>qparam_ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a74ffde7bbe921424bef364880c5d57ea" name="a74ffde7bbe921424bef364880c5d57ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74ffde7bbe921424bef364880c5d57ea">&#9670;&#160;</a></span>lookup_batched_unary_embedding_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> lookup_batched_unary_embedding_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weight</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>table_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d6ac45089730a607c2a46a265ac8b7b" name="a8d6ac45089730a607c2a46a265ac8b7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d6ac45089730a607c2a46a265ac8b7b">&#9670;&#160;</a></span>lru_cache_populate_byte_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> lru_cache_populate_byte_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_cache_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>cache_index_table_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab26f1a83ce47d5510deed9bc9e9d6d9a" name="ab26f1a83ce47d5510deed9bc9e9d6d9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab26f1a83ce47d5510deed9bc9e9d6d9a">&#9670;&#160;</a></span>lxu_cache_lookup_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> lxu_cache_lookup_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>invalid_index</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>num_uniq_cache_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations_output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25e94d75c07b4c2bc5427fe771f2d60d" name="a25e94d75c07b4c2bc5427fe771f2d60d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25e94d75c07b4c2bc5427fe771f2d60d">&#9670;&#160;</a></span>make_zero_float2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> make_zero_float2 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afca9b335bed360fc1ec3e239183a792f" name="afca9b335bed360fc1ec3e239183a792f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afca9b335bed360fc1ec3e239183a792f">&#9670;&#160;</a></span>make_zero_float4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> make_zero_float4 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a66822cc23f92dbb8c18c596511b2a917" name="a66822cc23f92dbb8c18c596511b2a917"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a66822cc23f92dbb8c18c596511b2a917">&#9670;&#160;</a></span>make_zero_float8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a> make_zero_float8 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7dcc205dbf44fb2e80d62bf47eb6c4c4" name="a7dcc205dbf44fb2e80d62bf47eb6c4c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7dcc205dbf44fb2e80d62bf47eb6c4c4">&#9670;&#160;</a></span>make_zero_float_16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a> make_zero_float_16 </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0223abaee318471a5e42318a1b7056b6" name="a0223abaee318471a5e42318a1b7056b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0223abaee318471a5e42318a1b7056b6">&#9670;&#160;</a></span>masked_select_jagged_1d()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; masked_select_jagged_1d </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>mask</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5f0a51933b0e3b1a96d8806d702ff82e" name="a5f0a51933b0e3b1a96d8806d702ff82e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f0a51933b0e3b1a96d8806d702ff82e">&#9670;&#160;</a></span>max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *</td>          <td class="paramname"><span class="paramname"><em>from</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *</td>          <td class="paramname"><span class="paramname"><em>to</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25ca3ce57c9101b878431d46cc049b50" name="a25ca3ce57c9101b878431d46cc049b50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25ca3ce57c9101b878431d46cc049b50">&#9670;&#160;</a></span>merge_pooled_embeddings()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> merge_pooled_embeddings </td>
+          <td>(</td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>pooled_embeddings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>uncat_dim_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Device</td>          <td class="paramname"><span class="paramname"><em>target_device</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>cat_dim</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad2aea0289bc3c5d135846ee32e0638c" name="aad2aea0289bc3c5d135846ee32e0638c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad2aea0289bc3c5d135846ee32e0638c">&#9670;&#160;</a></span>merge_pooled_embeddings_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> merge_pooled_embeddings_cpu </td>
+          <td>(</td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>pooled_embeddings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Device</td>          <td class="paramname"><span class="paramname"><em>target_device</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>cat_dim</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b62c5028106dcf10b450a8f178338ad" name="a5b62c5028106dcf10b450a8f178338ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b62c5028106dcf10b450a8f178338ad">&#9670;&#160;</a></span>min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *</td>          <td class="paramname"><span class="paramname"><em>from</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *</td>          <td class="paramname"><span class="paramname"><em>to</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f18d44e708cafd185e02defd95fb774" name="a2f18d44e708cafd185e02defd95fb774"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f18d44e708cafd185e02defd95fb774">&#9670;&#160;</a></span>native_empty_like()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> native_empty_like </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94744dd15c8d4ffa9c5cf581e499f1ca" name="a94744dd15c8d4ffa9c5cf581e499f1ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94744dd15c8d4ffa9c5cf581e499f1ca">&#9670;&#160;</a></span>nearest_rounding_vector() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> nearest_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aefcbaad4af03b4a72b15ca0ca40bc50f" name="aefcbaad4af03b4a72b15ca0ca40bc50f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aefcbaad4af03b4a72b15ca0ca40bc50f">&#9670;&#160;</a></span>nearest_rounding_vector() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> nearest_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8fa436e2338f97218eff8a48c94d8a4" name="aa8fa436e2338f97218eff8a48c94d8a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8fa436e2338f97218eff8a48c94d8a4">&#9670;&#160;</a></span>nearest_rounding_vector() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> nearest_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa56064f3d743f7535d59a1baca06dc1f" name="aa56064f3d743f7535d59a1baca06dc1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa56064f3d743f7535d59a1baca06dc1f">&#9670;&#160;</a></span>nearest_rounding_vector() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> nearest_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad6847fe2dc2433889aeb2dddf14f496" name="aad6847fe2dc2433889aeb2dddf14f496"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad6847fe2dc2433889aeb2dddf14f496">&#9670;&#160;</a></span>new_unified_tensor_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> new_unified_tensor_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; std::int64_t &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>sizes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_host_mapped</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6871043c7881b5434de1e8eea491c80" name="ab6871043c7881b5434de1e8eea491c80"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6871043c7881b5434de1e8eea491c80">&#9670;&#160;</a></span>offset_tbe_input_combine_with_length_args()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> offset_tbe_input_combine_with_length_args </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> **</td>          <td class="paramname"><span class="paramname"><em>indices_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> **</td>          <td class="paramname"><span class="paramname"><em>lengths_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> **</td>          <td class="paramname"><span class="paramname"><em>indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> **</td>          <td class="paramname"><span class="paramname"><em>lengths_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> **</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> **</td>          <td class="paramname"><span class="paramname"><em>indices_is_long</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> **</td>          <td class="paramname"><span class="paramname"><em>lengths_is_long</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *</td>          <td class="paramname"><span class="paramname"><em>base_addr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>ptr_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>need_weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aff23a0a3b0bc872ba44a0045b6e350" name="a5aff23a0a3b0bc872ba44a0045b6e350"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aff23a0a3b0bc872ba44a0045b6e350">&#9670;&#160;</a></span>offsets_range_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> offsets_range_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>range_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d88da2f7a769565c9ebdc070467eabe" name="a3d88da2f7a769565c9ebdc070467eabe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d88da2f7a769565c9ebdc070467eabe">&#9670;&#160;</a></span>offsets_range_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> offsets_range_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>range_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24fd2f4efa543ea716010c3fc1832587" name="a24fd2f4efa543ea716010c3fc1832587"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24fd2f4efa543ea716010c3fc1832587">&#9670;&#160;</a></span>pack_segments_autograd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_autograd </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::SymInt</td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a51f0921a8e934c6c4d0fca5ebb5d8338" name="a51f0921a8e934c6c4d0fca5ebb5d8338"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a51f0921a8e934c6c4d0fca5ebb5d8338">&#9670;&#160;</a></span>pack_segments_backward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_backward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Map N+1 dim tensor to N dim based on lengths tensor Sequences that are shorter than the longest sequence are padded with zeros. </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">data</td><td>N+1 dim Tensor. </td></tr>
+    <tr><td class="paramname">lengths</td><td>1D int/long tensor contains the length in each of the input. </td></tr>
+    <tr><td class="paramname">total_length</td><td>Sum of elements in the 1D tensor legnths </td></tr>
+    <tr><td class="paramname">max_length</td><td>The pre-defined max_length for the packed segments. -1 means autodetect </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>unpacked_tensor N-dimensional tensor </dd></dl>
+
+</div>
+</div>
+<a id="aaded8e25bef3a32580d71dc2ead25f0c" name="aaded8e25bef3a32580d71dc2ead25f0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaded8e25bef3a32580d71dc2ead25f0c">&#9670;&#160;</a></span>pack_segments_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Map N+1 dim tensor to N dim based on lengths tensor Sequences that are shorter than the longest sequence are padded with zeros. </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">data</td><td>N+1 dim Tensor. </td></tr>
+    <tr><td class="paramname">lengths</td><td>1D int/long tensor contains the length in each of the input. </td></tr>
+    <tr><td class="paramname">total_length</td><td>Sum of elements in the 1D tensor legnths </td></tr>
+    <tr><td class="paramname">max_length</td><td>The pre-defined max_length for the packed segments. </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>unpacked_tensor N-dimensional tensor </dd></dl>
+
+</div>
+</div>
+<a id="a01151883c1840f280f4f9c083677c8b5" name="a01151883c1840f280f4f9c083677c8b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01151883c1840f280f4f9c083677c8b5">&#9670;&#160;</a></span>pack_segments_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a049c248a78797b27f5e053809c13b88e" name="a049c248a78797b27f5e053809c13b88e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a049c248a78797b27f5e053809c13b88e">&#9670;&#160;</a></span>pack_segments_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3ff1eed5a38a10b4da916f9ec154f225" name="a3ff1eed5a38a10b4da916f9ec154f225"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ff1eed5a38a10b4da916f9ec154f225">&#9670;&#160;</a></span>pack_segments_cuda_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> pack_segments_cuda_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>data_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>data_size_0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_cum_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_seq</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>cell_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a></td>          <td class="paramname"><span class="paramname"><em>padding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>out_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">TORCH_DSA_KERNEL_ARGS</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a49cb5dd543cc63e932f458e1c79c0d00" name="a49cb5dd543cc63e932f458e1c79c0d00"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49cb5dd543cc63e932f458e1c79c0d00">&#9670;&#160;</a></span>pack_segments_forward_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_forward_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Map N dim tensor to N+1 dim based on lengths tensor. Sequences that are shorter than the longest sequence are padded with zeros. </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">t_in</td><td>N dim Tensor. </td></tr>
+    <tr><td class="paramname">lengths</td><td>1D int/long tensor contains the length in each of the output. </td></tr>
+    <tr><td class="paramname">max_length</td><td>The pre-defined max_length for the packed segments. -1 means autodetect </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>packed_tensor packed_tensor N + 1 dim Tensor where dim(1) is the max length, dim(0) is the batch size. </dd></dl>
+
+</div>
+</div>
+<a id="a4bec138cb5be2583288d026eb4185646" name="a4bec138cb5be2583288d026eb4185646"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4bec138cb5be2583288d026eb4185646">&#9670;&#160;</a></span>pack_segments_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pack_segments_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>t_in</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Map N dim tensor to N+1 dim based on lengths tensor. Sequences that are shorter than the longest sequence are padded with zeros. </p><dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">t_in</td><td>N dim Tensor. </td></tr>
+    <tr><td class="paramname">lengths</td><td>1D int/long tensor contains the length in each of the output. </td></tr>
+    <tr><td class="paramname">max_length</td><td>The pre-defined max_length for the packed segments. </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>packed_tensor packed_tensor N + 1 dim Tensor where dim(1) is the max length, dim(0) is the batch size. </dd></dl>
+
+</div>
+</div>
+<a id="af01b4023830652f0cc3e99c87f7b4526" name="af01b4023830652f0cc3e99c87f7b4526"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af01b4023830652f0cc3e99c87f7b4526">&#9670;&#160;</a></span>padding_fused_tbe_input_combine_with_length_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; padding_fused_tbe_input_combine_with_length_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>padding_fused_tbe_input_combine_with_length_cpu is similar to tbe_input_combine_with_length_cpu, but padding all the lengths to the size specified by batch_size.</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">indices_list</td><td>list of indices. </td></tr>
+    <tr><td class="paramname">lengths_list</td><td>list of lengths. </td></tr>
+    <tr><td class="paramname">per_sample_weights</td><td>list of per_sample_weights </td></tr>
+  </table>
+  </dd>
+</dl>
+<dl class="section return"><dt>Returns</dt><dd>tuple of combined indices, lengths, and per_sample_weights </dd></dl>
+
+</div>
+</div>
+<a id="ab8d862f0ffee51a4d276f3989f0ab24b" name="ab8d862f0ffee51a4d276f3989f0ab24b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8d862f0ffee51a4d276f3989f0ab24b">&#9670;&#160;</a></span>permute102_baddbmm_permute102_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute102_baddbmm_permute102_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>A</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c3f53164eb98c0b45b5aaef3e99a172" name="a0c3f53164eb98c0b45b5aaef3e99a172"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c3f53164eb98c0b45b5aaef3e99a172">&#9670;&#160;</a></span>permute102_baddbmm_permute102_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute102_baddbmm_permute102_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>A</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a22758d46158e49801e876ab269855736" name="a22758d46158e49801e876ab269855736"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a22758d46158e49801e876ab269855736">&#9670;&#160;</a></span>permute_1D_sparse_data_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; permute_1D_sparse_data_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>permuted_lengths_sum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83da584464d49a223941e4b926b9676a" name="a83da584464d49a223941e4b926b9676a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83da584464d49a223941e4b926b9676a">&#9670;&#160;</a></span>permute_2D_sparse_data_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; permute_2D_sparse_data_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>permuted_lengths_sum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeabdb24bef8b30a2b80b94a676b2b5fb" name="aeabdb24bef8b30a2b80b94a676b2b5fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeabdb24bef8b30a2b80b94a676b2b5fb">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_auto_grad_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_duplicate_pooled_embs_auto_grad_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a242a088c94da1f0b016087bef8460622" name="a242a088c94da1f0b016087bef8460622"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a242a088c94da1f0b016087bef8460622">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_auto_grad_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_auto_grad_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0cdb20f76a1c62644ad644e4c7210ad" name="af0cdb20f76a1c62644ad644e4c7210ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0cdb20f76a1c62644ad644e4c7210ad">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_auto_grad_split_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_auto_grad_split_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a276c76fa5487668edb8477a844ca1704" name="a276c76fa5487668edb8477a844ca1704"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a276c76fa5487668edb8477a844ca1704">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_auto_grad_split_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_auto_grad_split_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc5af8d2639bda183a7758a7fb4d4e9a" name="acc5af8d2639bda183a7758a7fb4d4e9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc5af8d2639bda183a7758a7fb4d4e9a">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_duplicate_pooled_embs_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aecf7e9c2b36bb349c98294b9abfcf7c1" name="aecf7e9c2b36bb349c98294b9abfcf7c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecf7e9c2b36bb349c98294b9abfcf7c1">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a286571e933b530189672faaa53ee20e6" name="a286571e933b530189672faaa53ee20e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a286571e933b530189672faaa53ee20e6">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_split_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_split_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34e792da7d58bd96fc1c9d4c0b1b3a2a" name="a34e792da7d58bd96fc1c9d4c0b1b3a2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34e792da7d58bd96fc1c9d4c0b1b3a2a">&#9670;&#160;</a></span>permute_duplicate_pooled_embs_split_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_duplicate_pooled_embs_split_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b00efff9050b6bec363081afc5c3c2f" name="a2b00efff9050b6bec363081afc5c3c2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b00efff9050b6bec363081afc5c3c2f">&#9670;&#160;</a></span>permute_embeddings_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> permute_embeddings_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>len</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>embeddings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>input_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>output_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>permuted_embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4381e6e500aad1cf049aa509fc17b16b" name="a4381e6e500aad1cf049aa509fc17b16b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4381e6e500aad1cf049aa509fc17b16b">&#9670;&#160;</a></span>permute_pooled_embs_auto_grad_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_pooled_embs_auto_grad_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa321302401045119810e93f42a361f1f" name="aa321302401045119810e93f42a361f1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa321302401045119810e93f42a361f1f">&#9670;&#160;</a></span>permute_pooled_embs_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_pooled_embs_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9b4a18abd526ab3e9c95f782d87afbbb" name="a9b4a18abd526ab3e9c95f782d87afbbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b4a18abd526ab3e9c95f782d87afbbb">&#9670;&#160;</a></span>permute_pooled_embs_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca0e73083114d9eea99129e54b89fa23" name="aca0e73083114d9eea99129e54b89fa23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca0e73083114d9eea99129e54b89fa23">&#9670;&#160;</a></span>permute_pooled_embs_gpu_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_gpu_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>allow_duplicates</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1183d2ce4456d290df04c32b215fc22e" name="a1183d2ce4456d290df04c32b215fc22e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1183d2ce4456d290df04c32b215fc22e">&#9670;&#160;</a></span>permute_pooled_embs_meta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::Tensor permute_pooled_embs_meta </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ce974f08ff3cb46289f39af5ea7fcec" name="a9ce974f08ff3cb46289f39af5ea7fcec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ce974f08ff3cb46289f39af5ea7fcec">&#9670;&#160;</a></span>permute_pooled_embs_split_cpu_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_split_cpu_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>allow_duplicates</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d587655a374b11bb6b7febcabe0f403" name="a0d587655a374b11bb6b7febcabe0f403"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d587655a374b11bb6b7febcabe0f403">&#9670;&#160;</a></span>permute_pooled_embs_split_gpu_impl()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> permute_pooled_embs_split_gpu_impl </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>pooled_embs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_offset_dim_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;</td>          <td class="paramname"><span class="paramname"><em>inv_permute_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>allow_duplicates</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c601604b9a15b45176ad42d4ca04d7d" name="a6c601604b9a15b45176ad42d4ca04d7d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c601604b9a15b45176ad42d4ca04d7d">&#9670;&#160;</a></span>permute_sequence_embeddings_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; permute_sequence_embeddings_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a713a7245a4295a57007802212dca05ee" name="a713a7245a4295a57007802212dca05ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a713a7245a4295a57007802212dca05ee">&#9670;&#160;</a></span>permute_sequence_embeddings_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; permute_sequence_embeddings_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7eec8c74f87d4204857061b761a17ede" name="a7eec8c74f87d4204857061b761a17ede"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7eec8c74f87d4204857061b761a17ede">&#9670;&#160;</a></span>permute_sparse_features_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; permute_sparse_features_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>permute</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82c664395e6340a5878c867fcf278bfc" name="a82c664395e6340a5878c867fcf278bfc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82c664395e6340a5878c867fcf278bfc">&#9670;&#160;</a></span>prefix_sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> prefix_sum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>array</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>presum</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab57019812325465b62248776bb200885" name="ab57019812325465b62248776bb200885"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab57019812325465b62248776bb200885">&#9670;&#160;</a></span>pruned_array_lookup_from_row_idx_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pruned_array_lookup_from_row_idx_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>update_row_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>update_table_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>index_remappings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>index_remappings_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adda552b8784184a2f17aa997e10869f9" name="adda552b8784184a2f17aa997e10869f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adda552b8784184a2f17aa997e10869f9">&#9670;&#160;</a></span>pruned_array_lookup_from_row_idx_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> pruned_array_lookup_from_row_idx_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>update_row_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>update_table_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>index_remappings</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>index_remappings_offsets</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Index remapping function that returns the remapped indices.</p>
+<p>Args: update_row_indices: row indices for every new row update_table_indices: table indices for every new row index_remappings: concated index remapping for every embedding table index_remappings_offsets: offset for each embedding table</p>
+<p>Returns: remapped indices for each new row. </p>
+
+</div>
+</div>
+<a id="af5bbc85156e52ab097bb0f770a2f63e7" name="af5bbc85156e52ab097bb0f770a2f63e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5bbc85156e52ab097bb0f770a2f63e7">&#9670;&#160;</a></span>quantize_store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> quantize_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a71657f0dff28b74e6cb71f2e70adba96" name="a71657f0dff28b74e6cb71f2e70adba96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71657f0dff28b74e6cb71f2e70adba96">&#9670;&#160;</a></span>reorder_batched_ad_indices_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> reorder_batched_ad_indices_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>reordered_cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_indices_after_broadcast</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe2eef805cfc20b2d3ba69e3db973688" name="abe2eef805cfc20b2d3ba69e3db973688"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe2eef805cfc20b2d3ba69e3db973688">&#9670;&#160;</a></span>reorder_batched_ad_indices_cpu_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> reorder_batched_ad_indices_cpu_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>reordered_cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a10ae2e750abd260fb3dc2deb5e6a10a6" name="a10ae2e750abd260fb3dc2deb5e6a10a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10ae2e750abd260fb3dc2deb5e6a10a6">&#9670;&#160;</a></span>reorder_batched_ad_indices_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> reorder_batched_ad_indices_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>reordered_cat_ad_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_indices_after_broadcast</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a87472f171b785c3735bc88d72c8ddd9e" name="a87472f171b785c3735bc88d72c8ddd9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87472f171b785c3735bc88d72c8ddd9e">&#9670;&#160;</a></span>reorder_batched_ad_lengths_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> reorder_batched_ad_lengths_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aee6a046b2315137787cced8d9942a248" name="aee6a046b2315137787cced8d9942a248"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee6a046b2315137787cced8d9942a248">&#9670;&#160;</a></span>reorder_batched_ad_lengths_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> reorder_batched_ad_lengths_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af398efd1fa34f78e6882f7691aa99fa9" name="af398efd1fa34f78e6882f7691aa99fa9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af398efd1fa34f78e6882f7691aa99fa9">&#9670;&#160;</a></span>reorder_batched_ad_lengths_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> reorder_batched_ad_lengths_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>cat_ad_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>batch_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_ads_in_batch</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>broadcast_lengths</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17e57fc2dca2d6df09e26f3eec69464c" name="a17e57fc2dca2d6df09e26f3eec69464c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17e57fc2dca2d6df09e26f3eec69464c">&#9670;&#160;</a></span>report_embedding_error()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> report_embedding_error </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>t</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>b_begin</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>b_end</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *</td>          <td class="paramname"><span class="paramname"><em>offsets_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">IndexType</a> *</td>          <td class="paramname"><span class="paramname"><em>indices_data</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>allow_minus_one</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>report error from fbgemm cpu embedding lookup kernels @params allow_minus_one true for embedding kernels generated with scale_bias_last == false that can take -1 indices (output from pruned embedding id mapping) </p>
+
+</div>
+</div>
+<a id="af9dc4afe0a87b2326caf53649eee20eb" name="af9dc4afe0a87b2326caf53649eee20eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9dc4afe0a87b2326caf53649eee20eb">&#9670;&#160;</a></span>rk_double()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> rk_double </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3914fbd6fed76ebe8d05a1967ec5ccb9" name="a3914fbd6fed76ebe8d05a1967ec5ccb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3914fbd6fed76ebe8d05a1967ec5ccb9">&#9670;&#160;</a></span>rk_random()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">long</a> rk_random </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad56b0e8dd76a57dcc1e268831fe58abb" name="ad56b0e8dd76a57dcc1e268831fe58abb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad56b0e8dd76a57dcc1e268831fe58abb">&#9670;&#160;</a></span>rk_seed()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> rk_seed </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">long</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">long</a></td>          <td class="paramname"><span class="paramname"><em>s</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4468c32ea6dc23cc2d7bded57a53119" name="ac4468c32ea6dc23cc2d7bded57a53119"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4468c32ea6dc23cc2d7bded57a53119">&#9670;&#160;</a></span>rk_zipf()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">long</a> rk_zipf </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afad69123afbd407f6cd94913da47680e" name="afad69123afbd407f6cd94913da47680e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afad69123afbd407f6cd94913da47680e">&#9670;&#160;</a></span>round_down()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__host__</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> round_down </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a678327561759694192908f1f111424f7" name="a678327561759694192908f1f111424f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a678327561759694192908f1f111424f7">&#9670;&#160;</a></span>segment_sum_csr_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> segment_sum_csr_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_seg</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ae9711da44e5cd4a81f95a762b41180" name="a8ae9711da44e5cd4a81f95a762b41180"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ae9711da44e5cd4a81f95a762b41180">&#9670;&#160;</a></span>segment_sum_csr_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> segment_sum_csr_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>batch_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_seg</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>values</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a52eb62356a603284f18652bc195274ea" name="a52eb62356a603284f18652bc195274ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52eb62356a603284f18652bc195274ea">&#9670;&#160;</a></span>shfl_down_sync()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> shfl_down_sync </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>delta</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>width</em><span class="paramdefsep"> = </span><span class="paramdefval">kWarpSize</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">kFullWarpMask</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9b3fcf49a28b6524c8db8c7c523e1798" name="a9b3fcf49a28b6524c8db8c7c523e1798"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b3fcf49a28b6524c8db8c7c523e1798">&#9670;&#160;</a></span>shfl_sync()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> shfl_sync </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>srcLane</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>width</em><span class="paramdefsep"> = </span><span class="paramdefval">kWarpSize</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">kFullWarpMask</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17b07e8668ed9b29a8b37d21a829723d" name="a17b07e8668ed9b29a8b37d21a829723d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17b07e8668ed9b29a8b37d21a829723d">&#9670;&#160;</a></span>shfl_xor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> shfl_xor </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>laneMask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>width</em><span class="paramdefsep"> = </span><span class="paramdefval">kWarpSize</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">kFullWarpMask</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ae09e478c1e9d6a414935fb6cf60f99" name="a4ae09e478c1e9d6a414935fb6cf60f99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ae09e478c1e9d6a414935fb6cf60f99">&#9670;&#160;</a></span>should_prune()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> should_prune </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_rows_kept</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>min_save_ratio</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa5ada0472a8306dea17df0d7d1d42abc" name="aa5ada0472a8306dea17df0d7d1d42abc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5ada0472a8306dea17df0d7d1d42abc">&#9670;&#160;</a></span>splitmix64_stateless()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__host__</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> splitmix64_stateless </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>index</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6ac9f6d81bff1b8572a380dbe1af00fb" name="a6ac9f6d81bff1b8572a380dbe1af00fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ac9f6d81bff1b8572a380dbe1af00fb">&#9670;&#160;</a></span>stacked_jagged_1d_to_dense_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; stacked_jagged_1d_to_dense_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>max_lengths_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf7f39b1a3dd7c2797fd11e740d6269f" name="adf7f39b1a3dd7c2797fd11e740d6269f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf7f39b1a3dd7c2797fd11e740d6269f">&#9670;&#160;</a></span>stacked_jagged_1d_to_dense_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; stacked_jagged_1d_to_dense_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>max_lengths_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a442efbf57b46780a07ac4759ac1866ee" name="a442efbf57b46780a07ac4759ac1866ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a442efbf57b46780a07ac4759ac1866ee">&#9670;&#160;</a></span>stacked_jagged_2d_to_dense_backward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> stacked_jagged_2d_to_dense_backward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_L</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>grad_padded_values_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offsets_tensor_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab45e5e415a8929cbd0021eae37e1d881" name="ab45e5e415a8929cbd0021eae37e1d881"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab45e5e415a8929cbd0021eae37e1d881">&#9670;&#160;</a></span>stacked_jagged_2d_to_dense_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; stacked_jagged_2d_to_dense_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>max_lengths_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5de1d5c177df840f2fa7ab0cdda2aa02" name="a5de1d5c177df840f2fa7ab0cdda2aa02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5de1d5c177df840f2fa7ab0cdda2aa02">&#9670;&#160;</a></span>stacked_jagged_2d_to_dense_forward_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;, std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &gt; stacked_jagged_2d_to_dense_forward_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>max_lengths_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaac575e676d094aba1367e9eaf3489bc" name="aaac575e676d094aba1367e9eaf3489bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaac575e676d094aba1367e9eaf3489bc">&#9670;&#160;</a></span>stacked_jagged_2d_to_dense_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; stacked_jagged_2d_to_dense_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>offset_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>max_lengths_per_key</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>padding_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe523b46c92c9009410f173e4ac434db" name="afe523b46c92c9009410f173e4ac434db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe523b46c92c9009410f173e4ac434db">&#9670;&#160;</a></span>stochastic_rounding_init()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_init </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>s0</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>s1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0b19e6751891f43372768335cc3c468" name="af0b19e6751891f43372768335cc3c468"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0b19e6751891f43372768335cc3c468">&#9670;&#160;</a></span>stochastic_rounding_rand4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint4</a> stochastic_rounding_rand4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> *</td>          <td class="paramname"><span class="paramname"><em>state</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a06c37bb32cb18b8846cf689db8ed94fb" name="a06c37bb32cb18b8846cf689db8ed94fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06c37bb32cb18b8846cf689db8ed94fb">&#9670;&#160;</a></span>stochastic_rounding_vector() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d41dbbfc3106c8fd5ff37cefbffbc38" name="a7d41dbbfc3106c8fd5ff37cefbffbc38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d41dbbfc3106c8fd5ff37cefbffbc38">&#9670;&#160;</a></span>stochastic_rounding_vector() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aec7be9515265c4db67d205f8a3a39822" name="aec7be9515265c4db67d205f8a3a39822"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec7be9515265c4db67d205f8a3a39822">&#9670;&#160;</a></span>stochastic_rounding_vector() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a44ed26caaddd852d96ee453ea6cc2e07" name="a44ed26caaddd852d96ee453ea6cc2e07"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44ed26caaddd852d96ee453ea6cc2e07">&#9670;&#160;</a></span>stochastic_rounding_vector() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3313b5c0af7bd07d6e47253a24a27ce7" name="a3313b5c0af7bd07d6e47253a24a27ce7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3313b5c0af7bd07d6e47253a24a27ce7">&#9670;&#160;</a></span>stochastic_rounding_vector() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> stochastic_rounding_vector </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>value</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8afc4c2510a6db3d420fc1025d3ac30b" name="a8afc4c2510a6db3d420fc1025d3ac30b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8afc4c2510a6db3d420fc1025d3ac30b">&#9670;&#160;</a></span>store_qparams_to_row() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store_qparams_to_row </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af4ec15f5d6826c016c46b5d7cae62d72" name="af4ec15f5d6826c016c46b5d7cae62d72"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4ec15f5d6826c016c46b5d7cae62d72">&#9670;&#160;</a></span>store_qparams_to_row() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store_qparams_to_row </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7f73354e0c76fbc0584c3250dadc98e" name="aa7f73354e0c76fbc0584c3250dadc98e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7f73354e0c76fbc0584c3250dadc98e">&#9670;&#160;</a></span>sum_reduce_to_one_device()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> sum_reduce_to_one_device </td>
+          <td>(</td>
+          <td class="paramtype">std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt;</td>          <td class="paramname"><span class="paramname"><em>input_tensors</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Device</td>          <td class="paramname"><span class="paramname"><em>target_device</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab776b7b9076d17238d502b2746135ace" name="ab776b7b9076d17238d502b2746135ace"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab776b7b9076d17238d502b2746135ace">&#9670;&#160;</a></span>syncwarp()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> syncwarp </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56da764643d07d366219d69333e6f9de" name="a56da764643d07d366219d69333e6f9de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56da764643d07d366219d69333e6f9de">&#9670;&#160;</a></span>tbe_input_combine_with_length_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; tbe_input_combine_with_length_cpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae818a54243bd2ea4c0841088f07ff327" name="ae818a54243bd2ea4c0841088f07ff327"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae818a54243bd2ea4c0841088f07ff327">&#9670;&#160;</a></span>tbe_input_combine_with_length_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; tbe_input_combine_with_length_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>indices_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>per_sample_weights_addrs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>indices_is_long</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_is_long</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>indices_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_lists</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_lengths</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_list_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::DeviceIndex &amp;</td>          <td class="paramname"><span class="paramname"><em>device</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7db32b23d955e760c7dfb4b29a13ca1" name="af7db32b23d955e760c7dfb4b29a13ca1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7db32b23d955e760c7dfb4b29a13ca1">&#9670;&#160;</a></span>tbe_input_combine_with_length_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>, <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; tbe_input_combine_with_length_gpu </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>indices_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lengths_list</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> std::vector&lt; <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>per_sample_weights</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8145ebe65a5242bd7a3a15de0d69a70b" name="a8145ebe65a5242bd7a3a15de0d69a70b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8145ebe65a5242bd7a3a15de0d69a70b">&#9670;&#160;</a></span>thrust_find_qparams() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> thrust_find_qparams </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">fbgemm_gpu::Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; *</td>          <td class="paramname"><span class="paramname"><em>input_row</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>D</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c54f589eee05a58cebd4cf7cf8b1086" name="a6c54f589eee05a58cebd4cf7cf8b1086"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c54f589eee05a58cebd4cf7cf8b1086">&#9670;&#160;</a></span>thrust_find_qparams() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> thrust_find_qparams </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>input_row</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>D</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9d1e20705b5c1c16dd554c81b3766b93" name="a9d1e20705b5c1c16dd554c81b3766b93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d1e20705b5c1c16dd554c81b3766b93">&#9670;&#160;</a></span>to_bfloat16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__nv_bfloat16</a> to_bfloat16 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f6b99cce95aa3d297e4b824e577d62d" name="a3f6b99cce95aa3d297e4b824e577d62d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f6b99cce95aa3d297e4b824e577d62d">&#9670;&#160;</a></span>to_bfloat16_16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bfloat16_16</a> to_bfloat16_16 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b8a7fb1619f338df717ef075fe513e4" name="a2b8a7fb1619f338df717ef075fe513e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b8a7fb1619f338df717ef075fe513e4">&#9670;&#160;</a></span>to_bfloat16_2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__nv_bfloat162</a> to_bfloat16_2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d0d7114d05a683328a782804ef2bef9" name="a7d0d7114d05a683328a782804ef2bef9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d0d7114d05a683328a782804ef2bef9">&#9670;&#160;</a></span>to_bfloat16_4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bfloat16_4</a> to_bfloat16_4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a74f150a063fed3144f6d99cde2d46069" name="a74f150a063fed3144f6d99cde2d46069"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a74f150a063fed3144f6d99cde2d46069">&#9670;&#160;</a></span>to_bfloat16_8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bfloat16_8</a> to_bfloat16_8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e13c4ba1e371f3bcabf7f6f74ac103e" name="a3e13c4ba1e371f3bcabf7f6f74ac103e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e13c4ba1e371f3bcabf7f6f74ac103e">&#9670;&#160;</a></span>to_half()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half</a> to_half </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a776872b9c8f667b7d05aea83e7287d5d" name="a776872b9c8f667b7d05aea83e7287d5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a776872b9c8f667b7d05aea83e7287d5d">&#9670;&#160;</a></span>to_half16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half16</a> to_half16 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaed7807ac8eef0fb786324d5935c4aca" name="aaed7807ac8eef0fb786324d5935c4aca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaed7807ac8eef0fb786324d5935c4aca">&#9670;&#160;</a></span>to_half2()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__half2</a> to_half2 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aee1f23de5e5847146cd821595d1978ae" name="aee1f23de5e5847146cd821595d1978ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee1f23de5e5847146cd821595d1978ae">&#9670;&#160;</a></span>to_half4()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b">half4</a> to_half4 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a40088f5e88d0985b0c9b08808c40e1dd" name="a40088f5e88d0985b0c9b08808c40e1dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a40088f5e88d0985b0c9b08808c40e1dd">&#9670;&#160;</a></span>to_half8()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6">half8</a> to_half8 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a></td>          <td class="paramname"><span class="paramname"><em>v</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">m</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a257a9d9e0a71b3a1299af6ef9c6c3a78" name="a257a9d9e0a71b3a1299af6ef9c6c3a78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a257a9d9e0a71b3a1299af6ef9c6c3a78">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">CUDA</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">m</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45142e19fe831c9d085bb097b7d946b2" name="a45142e19fe831c9d085bb097b7d946b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45142e19fe831c9d085bb097b7d946b2">&#9670;&#160;</a></span>trapz_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__inline__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> trapz_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>x</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_y</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *</td>          <td class="paramname"><span class="paramname"><em>block_x</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_entries_per_block</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>block_id</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ca17769ee2a4593b447a78e3d3fe429" name="a0ca17769ee2a4593b447a78e3d3fe429"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ca17769ee2a4593b447a78e3d3fe429">&#9670;&#160;</a></span>unpack_segments_cuda_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> unpack_segments_cuda_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>data_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>lengths_cum_sum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Length_T</a></td>          <td class="paramname"><span class="paramname"><em>max_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_seq</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>cell_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Data_T</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>out_ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2a027e4907e39797b913faa6b4e7270" name="ab2a027e4907e39797b913faa6b4e7270"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2a027e4907e39797b913faa6b4e7270">&#9670;&#160;</a></span>vec4_acc()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; vec4_acc </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>lhs</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>rhs</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a635410cfe229b71efb90199b72107f86" name="a635410cfe229b71efb90199b72107f86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a635410cfe229b71efb90199b72107f86">&#9670;&#160;</a></span>vec4_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> vec4_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">fbgemm_gpu::Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vec4</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8a02a5464fb9156400157b45a947c58" name="ae8a02a5464fb9156400157b45a947c58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8a02a5464fb9156400157b45a947c58">&#9670;&#160;</a></span>vec4_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> vec4_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">fbgemm_gpu::Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vec4</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c639f9912105390e4083332e01ecc57" name="a8c639f9912105390e4083332e01ecc57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c639f9912105390e4083332e01ecc57">&#9670;&#160;</a></span>vec_copy_with_implicit_type_cast()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">src_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> , <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> VEC_WIDTH&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> vec_copy_with_implicit_type_cast </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a></td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>src_addr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>src_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>dst_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>src_bound</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a14fea42ceabd6ac042ad0d2fe5452762" name="a14fea42ceabd6ac042ad0d2fe5452762"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14fea42ceabd6ac042ad0d2fe5452762">&#9670;&#160;</a></span>VEC_WIDTH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a3d08a36103c24a910afe1dbfa89e3060">indices_is_long</a> &amp;[<a class="el" href="#a96187c00fa81aaf4d6404cc915a5d7b7">is_long_idx</a>] <a class="el" href="#ace5ac8a87afdca35747d5c9bd8e33e73">is_long_mask</a> VEC_WIDTH </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">combined_indices</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a192b4d5303123cf4b57b1491cd42e36e">indices_addrs</a></td>          <td class="paramname"><span class="paramname">[list_id], </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a119724f55ff744b85a20a870b5da4152">src_idx</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a43255cb54bbd791afb26a23af02acfec">indices_start</a>+</td>          <td class="paramname"><span class="paramname"><em>src_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#ac7c7ecdd5162f325b65a6b5c5c6c40ca">indices_end</a> -</td>          <td class="paramname"><span class="paramname"><em>indices_start</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5aef253d76748f681c0e5d7e1620c8c9" name="a5aef253d76748f681c0e5d7e1620c8c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aef253d76748f681c0e5d7e1620c8c9">&#9670;&#160;</a></span>VEC_WIDTH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ad8b8d41e5b0a7f0f67d18d46f561eef8">lengths_is_long</a> &amp;[<a class="el" href="#a96187c00fa81aaf4d6404cc915a5d7b7">is_long_idx</a>] <a class="el" href="#ace5ac8a87afdca35747d5c9bd8e33e73">is_long_mask</a> VEC_WIDTH </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a176c2b8769558803ba0614bc04b7995f">combined_lengths</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a2b15eac55dd0239102e264b41febb49f">lengths_addrs</a></td>          <td class="paramname"><span class="paramname">[list_id], </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a119724f55ff744b85a20a870b5da4152">src_idx</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a332f5a97c570870675755b52b91919d6">lengths_start</a>+</td>          <td class="paramname"><span class="paramname"><em>src_idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="#a80de4cfcf0b435f1edbf9ba9cb999695">lengths_end</a> -</td>          <td class="paramname"><span class="paramname"><em>lengths_start</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a78a26de691da2f45a0e4ddaeda75009d" name="a78a26de691da2f45a0e4ddaeda75009d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a78a26de691da2f45a0e4ddaeda75009d">&#9670;&#160;</a></span>warp_find_qparams()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> warp_find_qparams </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a></td>          <td class="paramname"><span class="paramname"><em>local_min</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a></td>          <td class="paramname"><span class="paramname"><em>local_max</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acddba9c219634f979df1c8b943ac5e88" name="acddba9c219634f979df1c8b943ac5e88"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acddba9c219634f979df1c8b943ac5e88">&#9670;&#160;</a></span>warp_reduce_max()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ReduceWidth = kWarpSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> warp_reduce_max </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af554571b877e978f495835af1920f4fb" name="af554571b877e978f495835af1920f4fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af554571b877e978f495835af1920f4fb">&#9670;&#160;</a></span>warp_reduce_min()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ReduceWidth = kWarpSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> warp_reduce_min </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9bd92b10074adc4fc58e4671a1d1d576" name="a9bd92b10074adc4fc58e4671a1d1d576"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bd92b10074adc4fc58e4671a1d1d576">&#9670;&#160;</a></span>warpBitonicMergeLE16()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> K , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">V</a> , <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> L, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> Dir, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Comp</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> IsBitonic&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> warpBitonicMergeLE16 </td>
+          <td>(</td>
+          <td class="paramtype">K &amp;</td>          <td class="paramname"><span class="paramname"><em>k</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">V</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad47dc8c3cfd941ea7a92b1cb677abf8e" name="ad47dc8c3cfd941ea7a92b1cb677abf8e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad47dc8c3cfd941ea7a92b1cb677abf8e">&#9670;&#160;</a></span>warpReduceAllSum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> ReduceWidth = kWarpSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> warpReduceAllSum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>val</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a></td>          <td class="paramname"><span class="paramname"><em>shfl_sync_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">kFullWarpMask</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Sums a register value across all warp threads. </p>
+
+</div>
+</div>
+<a id="a44128eca539acfe55bdf792616e8b5b6" name="a44128eca539acfe55bdf792616e8b5b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44128eca539acfe55bdf792616e8b5b6">&#9670;&#160;</a></span>while()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">while </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="#ad8f5e19e19f12974c9713e920ec54331">left</a> !</td>          <td class="paramname"><span class="paramname"><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="#a2f54f8b71f0d765e2b7dbd9a8b9774ff">right</a></span></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a957e5dced6114b32a6d2e5e62011adbf" name="a957e5dced6114b32a6d2e5e62011adbf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a957e5dced6114b32a6d2e5e62011adbf">&#9670;&#160;</a></span>zipf_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> zipf_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>n</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>seed</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6991817ca1213e7cc0eba3bad689c03a" name="a6991817ca1213e7cc0eba3bad689c03a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6991817ca1213e7cc0eba3bad689c03a">&#9670;&#160;</a></span>zipf_kernel()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> zipf_kernel </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>seed</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::PackedTensorAccessor64&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">long</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>y</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="adb51b4975da6fe6cd1f6465b56b3b8ab" name="adb51b4975da6fe6cd1f6465b56b3b8ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb51b4975da6fe6cd1f6465b56b3b8ab">&#9670;&#160;</a></span>B</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> B</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab540864a8f4d5cfb95d168df6ff1ac51" name="ab540864a8f4d5cfb95d168df6ff1ac51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab540864a8f4d5cfb95d168df6ff1ac51">&#9670;&#160;</a></span>b</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> b = blockIdx.x * blockDim.x + threadIdx.x</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="add6df347839b36aa580f997fddaebf86" name="add6df347839b36aa580f997fddaebf86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#add6df347839b36aa580f997fddaebf86">&#9670;&#160;</a></span>batch_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> batch_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afba1f0bf46d421e1e2834949792290e0" name="afba1f0bf46d421e1e2834949792290e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afba1f0bf46d421e1e2834949792290e0">&#9670;&#160;</a></span>batch_size_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> batch_size_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34cfcac7aff478aac7e03c48a25b0447" name="a34cfcac7aff478aac7e03c48a25b0447"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34cfcac7aff478aac7e03c48a25b0447">&#9670;&#160;</a></span>batch_size_per_feature</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> batch_size_per_feature</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d3b870a22caa3968ca55fb89420e970" name="a7d3b870a22caa3968ca55fb89420e970"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d3b870a22caa3968ca55fb89420e970">&#9670;&#160;</a></span>bin_boundaries</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> bin_boundaries</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5306cfe92409d5d6525baade1714a78a" name="a5306cfe92409d5d6525baade1714a78a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5306cfe92409d5d6525baade1714a78a">&#9670;&#160;</a></span>bin_ctr_in_use_after</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> bin_ctr_in_use_after</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a505eb55e26cb1a63decb22880c93b9fd" name="a505eb55e26cb1a63decb22880c93b9fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a505eb55e26cb1a63decb22880c93b9fd">&#9670;&#160;</a></span>bin_ctr_weight_value</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> bin_ctr_weight_value</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24c7d1d72baa0efece963a4ed4db9c17" name="a24c7d1d72baa0efece963a4ed4db9c17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24c7d1d72baa0efece963a4ed4db9c17">&#9670;&#160;</a></span>bin_ids_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> bin_ids_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <a class="code hl_variable" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> index = blockIdx.x * blockDim.x + threadIdx.x</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a112ef14feafbe22a3b70fd5ddcefcf99"><div class="ttname"><a href="#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu::int32_t</a></div><div class="ttdeci">indices_is_long &amp;[is_long_idx] is_long_mask int32_t</div><div class="ttdef"><b>Definition</b> input_combine.cu:73</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ad09ae93c92bfe0fe061460cfe4acd611" name="ad09ae93c92bfe0fe061460cfe4acd611"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad09ae93c92bfe0fe061460cfe4acd611">&#9670;&#160;</a></span>bin_num_examples_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> bin_num_examples_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6cf3109a8de0f8ef7a818474a2fec845" name="a6cf3109a8de0f8ef7a818474a2fec845"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6cf3109a8de0f8ef7a818474a2fec845">&#9670;&#160;</a></span>bin_num_positives_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> bin_num_positives_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc943f4a5b9448babdf4b36ff9095dff" name="acc943f4a5b9448babdf4b36ff9095dff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc943f4a5b9448babdf4b36ff9095dff">&#9670;&#160;</a></span>block_bucketize_pos_concat</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> block_bucketize_pos_concat</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7caa87d119b6ee26ae8fe2b66671215c" name="a7caa87d119b6ee26ae8fe2b66671215c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7caa87d119b6ee26ae8fe2b66671215c">&#9670;&#160;</a></span>block_bucketize_pos_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> block_bucketize_pos_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2cdb48bca4ebe95f2cdeedea09f549f" name="ab2cdb48bca4ebe95f2cdeedea09f549f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2cdb48bca4ebe95f2cdeedea09f549f">&#9670;&#160;</a></span>block_sizes_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> block_sizes_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a04eca282d6278fd065294a91065404" name="a5a04eca282d6278fd065294a91065404"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a04eca282d6278fd065294a91065404">&#9670;&#160;</a></span>calibrated_prediction_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> calibrated_prediction_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a176c2b8769558803ba0614bc04b7995f" name="a176c2b8769558803ba0614bc04b7995f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a176c2b8769558803ba0614bc04b7995f">&#9670;&#160;</a></span>combined_lengths</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> combined_lengths</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a426e281c9c2dd29c0abe399f17ba8d6f" name="a426e281c9c2dd29c0abe399f17ba8d6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a426e281c9c2dd29c0abe399f17ba8d6f">&#9670;&#160;</a></span>combined_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> combined_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0523b0079ced4e8a092ec1f3e5b5a193" name="a0523b0079ced4e8a092ec1f3e5b5a193"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0523b0079ced4e8a092ec1f3e5b5a193">&#9670;&#160;</a></span>csr_seg_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a>* csr_seg_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa80c593013706e17927a0cedd1d6dbb0" name="aa80c593013706e17927a0cedd1d6dbb0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa80c593013706e17927a0cedd1d6dbb0">&#9670;&#160;</a></span>curr_bin_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> curr_bin_id = <a class="el" href="#ad8f5e19e19f12974c9713e920ec54331">left</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afce91df3fd14c65d1d464b891004b1da" name="afce91df3fd14c65d1d464b891004b1da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afce91df3fd14c65d1d464b891004b1da">&#9670;&#160;</a></span>curr_bin_num_examples</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> curr_bin_num_examples = <a class="el" href="#ad09ae93c92bfe0fe061460cfe4acd611">bin_num_examples_data</a>[<a class="el" href="#a24c7d1d72baa0efece963a4ed4db9c17">bin_ids_data</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a>]]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5774000010ec731b390787b3b5f72868" name="a5774000010ec731b390787b3b5f72868"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5774000010ec731b390787b3b5f72868">&#9670;&#160;</a></span>curr_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> curr_offset = <a class="el" href="#a091bd2259a1e959d0052ad2fa399065f">segment_offsets_data</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a216663a22f5311b9ecf7c9bc64ee047d" name="a216663a22f5311b9ecf7c9bc64ee047d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a216663a22f5311b9ecf7c9bc64ee047d">&#9670;&#160;</a></span>curr_segment_value</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> curr_segment_value</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">      <a class="code hl_variable" href="#a2f93c0df9186a239cfd59505a464fc36">dense_segment_value_data</a>[index] &gt; <a class="code hl_variable" href="#a13adcdfa105d3fe5d68bfeae4df5f017">num_segments</a></div>
+<div class="line">      ? 0</div>
+<div class="line">      : std::max(0<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">L</a>, dense_segment_value_data[index] * num_bins)</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a67824ecf84f5816f07b74fa956bdbcd2"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2">L</a></div><div class="ttdeci">uint32_t L</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:744</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a13adcdfa105d3fe5d68bfeae4df5f017"><div class="ttname"><a href="#a13adcdfa105d3fe5d68bfeae4df5f017">fbgemm_gpu::num_segments</a></div><div class="ttdeci">__global__ const int64_t const int64_t num_segments</div><div class="ttdef"><b>Definition</b> histogram_binning_calibration_ops.cu:135</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a2f93c0df9186a239cfd59505a464fc36"><div class="ttname"><a href="#a2f93c0df9186a239cfd59505a464fc36">fbgemm_gpu::dense_segment_value_data</a></div><div class="ttdeci">__global__ const ValueType *const const OffsetType *const ValueType *const dense_segment_value_data</div><div class="ttdef"><b>Definition</b> histogram_binning_calibration_ops.cu:113</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a2f93c0df9186a239cfd59505a464fc36" name="a2f93c0df9186a239cfd59505a464fc36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f93c0df9186a239cfd59505a464fc36">&#9670;&#160;</a></span>dense_segment_value_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">SegmentValueType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> dense_segment_value_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <a class="code hl_variable" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> index = blockIdx.x * blockDim.x + threadIdx.x</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a0544c3fe466e421738dae463968b70ba" name="a0544c3fe466e421738dae463968b70ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0544c3fe466e421738dae463968b70ba">&#9670;&#160;</a></span>else</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">else</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">    <a class="code hl_variable" href="#a5a04eca282d6278fd065294a91065404">calibrated_prediction_data</a>[index] = <a class="code hl_variable" href="#a7b13aa0c4501d0593484a73afe8786c2">uncalibrated</a></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a5a04eca282d6278fd065294a91065404"><div class="ttname"><a href="#a5a04eca282d6278fd065294a91065404">fbgemm_gpu::calibrated_prediction_data</a></div><div class="ttdeci">__global__ const int64_t const double const double const int64_t const double const T *const const double *const const double *const T *const calibrated_prediction_data</div><div class="ttdef"><b>Definition</b> histogram_binning_calibration_ops.cu:31</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a7b13aa0c4501d0593484a73afe8786c2"><div class="ttname"><a href="#a7b13aa0c4501d0593484a73afe8786c2">fbgemm_gpu::uncalibrated</a></div><div class="ttdeci">const double uncalibrated</div><div class="ttdef"><b>Definition</b> histogram_binning_calibration_ops.cu:39</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a8d2f3cd432a3bf2de49086fb33ef71cb" name="a8d2f3cd432a3bf2de49086fb33ef71cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d2f3cd432a3bf2de49086fb33ef71cb">&#9670;&#160;</a></span>fd_num_warps_per_list</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a> fd_num_warps_per_list</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <span class="keyword">auto</span> <a class="code hl_variable" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">global_warp_id</a> = blockIdx.x * blockDim.y + threadIdx.y</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__v2__kernel_8cu_html_a53d1bd761ca2346d5b9bcc60d1c43be6"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6">global_warp_id</a></div><div class="ttdeci">const int32_t global_warp_id</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_v2_kernel.cu:676</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a2a24c1ec3db68358edcac4561d38a0d1" name="a2a24c1ec3db68358edcac4561d38a0d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2a24c1ec3db68358edcac4561d38a0d1">&#9670;&#160;</a></span>grad_output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> grad_output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae1519b6699f9dca1080e9230f3d95245" name="ae1519b6699f9dca1080e9230f3d95245"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1519b6699f9dca1080e9230f3d95245">&#9670;&#160;</a></span>grad_sum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">at::acc_type&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a>&gt; grad_sum = 0.0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b80925f60fbc21517ec3a2e137b78bd" name="a5b80925f60fbc21517ec3a2e137b78bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b80925f60fbc21517ec3a2e137b78bd">&#9670;&#160;</a></span>grad_weight</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">grad_weight[<a class="el" href="#a4e34aefb3cc5403a07c020131077100a">n</a> *<a class="el" href="#aba761028ac72c20c7defaef09de61d95">sum_E</a>+<a class="el" href="#a242d5a911279d9ad2128346af039383f">table_offset</a>+<a class="el" href="#a9d7e9481c420588a334b2aedac0f5af4">idx</a>] = <a class="el" href="#ae1519b6699f9dca1080e9230f3d95245">grad_sum</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d76fd54f347327376ed8ba28ff66bfc" name="a0d76fd54f347327376ed8ba28ff66bfc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d76fd54f347327376ed8ba28ff66bfc">&#9670;&#160;</a></span>GROUP_INDEX_SELECT_COLS_PER_WARP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> GROUP_INDEX_SELECT_COLS_PER_WARP</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">    <a class="code hl_variable" href="#a693bb0de52991f987fe81dc61c750403">GROUP_INDEX_SELECT_UNROLL_FACTOR</a> * <a class="code hl_variable" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div>
+<div class="ttc" id="agen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu_html_a4a63994c436795f993c09c5626acfb05"><div class="ttname"><a href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05">kWarpSize</a></div><div class="ttdeci">template __global__ kWarpSize</div><div class="ttdef"><b>Definition</b> gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu:1952</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a693bb0de52991f987fe81dc61c750403"><div class="ttname"><a href="#a693bb0de52991f987fe81dc61c750403">fbgemm_gpu::GROUP_INDEX_SELECT_UNROLL_FACTOR</a></div><div class="ttdeci">constexpr int GROUP_INDEX_SELECT_UNROLL_FACTOR</div><div class="ttdef"><b>Definition</b> sparse_group_index.cu:16</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a696ffb981f6c273f77aae0cf102b1f6b" name="a696ffb981f6c273f77aae0cf102b1f6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a696ffb981f6c273f77aae0cf102b1f6b">&#9670;&#160;</a></span>GROUP_INDEX_SELECT_LOG_COLS_PER_WARP</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> GROUP_INDEX_SELECT_LOG_COLS_PER_WARP</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">    <a class="code hl_struct" href="structlog2__calc.html">log2_calc&lt;GROUP_INDEX_SELECT_COLS_PER_WARP&gt;::value</a></div>
+<div class="ttc" id="astructlog2__calc_html"><div class="ttname"><a href="structlog2__calc.html">log2_calc</a></div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:535</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a693bb0de52991f987fe81dc61c750403" name="a693bb0de52991f987fe81dc61c750403"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a693bb0de52991f987fe81dc61c750403">&#9670;&#160;</a></span>GROUP_INDEX_SELECT_UNROLL_FACTOR</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> GROUP_INDEX_SELECT_UNROLL_FACTOR = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0a2fbea18e37c564b3cada4172d96ff" name="af0a2fbea18e37c564b3cada4172d96ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0a2fbea18e37c564b3cada4172d96ff">&#9670;&#160;</a></span>group_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> group_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <span class="keyword">auto</span> total_num_warps = <a class="code hl_variable" href="#aecfb31f7c9583dd16ed7463ad8328db4">warp_offsets_group</a>[<a class="code hl_variable" href="#af0a2fbea18e37c564b3cada4172d96ff">group_size</a>]</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aecfb31f7c9583dd16ed7463ad8328db4"><div class="ttname"><a href="#aecfb31f7c9583dd16ed7463ad8328db4">fbgemm_gpu::warp_offsets_group</a></div><div class="ttdeci">__global__ const int64_t const int64_t const int64_t * warp_offsets_group</div><div class="ttdef"><b>Definition</b> sparse_group_index.cu:41</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_af0a2fbea18e37c564b3cada4172d96ff"><div class="ttname"><a href="#af0a2fbea18e37c564b3cada4172d96ff">fbgemm_gpu::group_size</a></div><div class="ttdeci">__global__ const int64_t const int64_t const int64_t const int32_t const int64_t const int64_t group_size</div><div class="ttdef"><b>Definition</b> sparse_group_index.cu:44</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a9d7e9481c420588a334b2aedac0f5af4" name="a9d7e9481c420588a334b2aedac0f5af4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d7e9481c420588a334b2aedac0f5af4">&#9670;&#160;</a></span>idx</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> idx = <a class="el" href="#a177d197b75db75ee70711f48a28e1524">linear_index</a> - <a class="el" href="#a242d5a911279d9ad2128346af039383f">table_offset</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aabefe307b5a16f2e2d2c5cc6c74719b6" name="aabefe307b5a16f2e2d2c5cc6c74719b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aabefe307b5a16f2e2d2c5cc6c74719b6">&#9670;&#160;</a></span>indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a192b4d5303123cf4b57b1491cd42e36e" name="a192b4d5303123cf4b57b1491cd42e36e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a192b4d5303123cf4b57b1491cd42e36e">&#9670;&#160;</a></span>indices_addrs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices_addrs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb7eb1c50758e407a638a81723961f56" name="acb7eb1c50758e407a638a81723961f56"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb7eb1c50758e407a638a81723961f56">&#9670;&#160;</a></span>indices_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7c7ecdd5162f325b65a6b5c5c6c40ca" name="ac7c7ecdd5162f325b65a6b5c5c6c40ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7c7ecdd5162f325b65a6b5c5c6c40ca">&#9670;&#160;</a></span>indices_end</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> indices_end = <a class="el" href="#af03fdab0a39bf13b8ec4de336253b8aa">indices_offsets</a>[<a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a> + 1]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d08a36103c24a910afe1dbfa89e3060" name="a3d08a36103c24a910afe1dbfa89e3060"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d08a36103c24a910afe1dbfa89e3060">&#9670;&#160;</a></span>indices_is_long</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices_is_long</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af03fdab0a39bf13b8ec4de336253b8aa" name="af03fdab0a39bf13b8ec4de336253b8aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af03fdab0a39bf13b8ec4de336253b8aa">&#9670;&#160;</a></span>indices_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7e26138f974174b1cd94f35321fef17d" name="a7e26138f974174b1cd94f35321fef17d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e26138f974174b1cd94f35321fef17d">&#9670;&#160;</a></span>indices_ptrs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* indices_ptrs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a43255cb54bbd791afb26a23af02acfec" name="a43255cb54bbd791afb26a23af02acfec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a43255cb54bbd791afb26a23af02acfec">&#9670;&#160;</a></span>indices_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> indices_start = <a class="el" href="#af03fdab0a39bf13b8ec4de336253b8aa">indices_offsets</a>[<a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af069d2baffbfbe0b8aae6aea56d31e86" name="af069d2baffbfbe0b8aae6aea56d31e86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af069d2baffbfbe0b8aae6aea56d31e86">&#9670;&#160;</a></span>indices_to_lb</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> indices_to_lb</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">using </span>uindex_t = std::make_unsigned_t&lt;index_t&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="aa494944475a226c613cdd03931ba061d" name="aa494944475a226c613cdd03931ba061d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa494944475a226c613cdd03931ba061d">&#9670;&#160;</a></span>info</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> info</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">      <span class="keyword">reinterpret_cast&lt;</span><span class="keyword">const </span><a class="code hl_variable" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>*<span class="keyword">&gt;</span>(<a class="code hl_variable" href="#a89d9dff100cfa1f022fcfbf61e2500cc">sorted_infos</a>)[segment_start]</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a89d9dff100cfa1f022fcfbf61e2500cc"><div class="ttname"><a href="#a89d9dff100cfa1f022fcfbf61e2500cc">fbgemm_gpu::sorted_infos</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ const at::PackedTensorAccessor32&lt; index_t, 1, at::RestrictPtrTraits &gt; const int32_t *__restrict__ const int32_t *__restrict__ sorted_infos</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:126</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acdf5304fcbfbc6f85054b8c45407691f" name="acdf5304fcbfbc6f85054b8c45407691f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acdf5304fcbfbc6f85054b8c45407691f">&#9670;&#160;</a></span>info_B_mask</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> info_B_mask</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <a class="code hl_variable" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> run_id = blockIdx.x * blockDim.x + threadIdx.x</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a4558e86e39e5639ec4665246b76df453" name="a4558e86e39e5639ec4665246b76df453"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4558e86e39e5639ec4665246b76df453">&#9670;&#160;</a></span>info_B_num_bits</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> info_B_num_bits</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88aea1b3f2194509bb8bb7105e0d6553" name="a88aea1b3f2194509bb8bb7105e0d6553"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88aea1b3f2194509bb8bb7105e0d6553">&#9670;&#160;</a></span>input_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> input_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5549affa3c112bf0c71b0e2323eb0c14" name="a5549affa3c112bf0c71b0e2323eb0c14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5549affa3c112bf0c71b0e2323eb0c14">&#9670;&#160;</a></span>input_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> input_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <span class="keywordtype">int</span> i = blockDim.x * blockIdx.x + threadIdx.x</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a112ef14feafbe22a3b70fd5ddcefcf99" name="a112ef14feafbe22a3b70fd5ddcefcf99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a112ef14feafbe22a3b70fd5ddcefcf99">&#9670;&#160;</a></span>int32_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ad8b8d41e5b0a7f0f67d18d46f561eef8">lengths_is_long</a>&amp; [<a class="el" href="#a96187c00fa81aaf4d6404cc915a5d7b7">is_long_idx</a>] <a class="el" href="#ace5ac8a87afdca35747d5c9bd8e33e73">is_long_mask</a> int32_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a96187c00fa81aaf4d6404cc915a5d7b7" name="a96187c00fa81aaf4d6404cc915a5d7b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96187c00fa81aaf4d6404cc915a5d7b7">&#9670;&#160;</a></span>is_long_idx</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> is_long_idx = <a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a> / <a class="el" href="#ab9c0e24618d9ec723a7fcc8653c0dd59">IS_LONG_NUM_BITS</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ace5ac8a87afdca35747d5c9bd8e33e73" name="ace5ac8a87afdca35747d5c9bd8e33e73"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace5ac8a87afdca35747d5c9bd8e33e73">&#9670;&#160;</a></span>is_long_mask</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> is_long_mask = 1<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">u</a> &lt;&lt; (<a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a> % <a class="el" href="#ab9c0e24618d9ec723a7fcc8653c0dd59">IS_LONG_NUM_BITS</a>)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab9c0e24618d9ec723a7fcc8653c0dd59" name="ab9c0e24618d9ec723a7fcc8653c0dd59"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab9c0e24618d9ec723a7fcc8653c0dd59">&#9670;&#160;</a></span>IS_LONG_NUM_BITS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> IS_LONG_NUM_BITS = 32</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a377d2c34d1f3becb19a91ea600e05321" name="a377d2c34d1f3becb19a91ea600e05321"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a377d2c34d1f3becb19a91ea600e05321">&#9670;&#160;</a></span>kCacheLocationMissing</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> kCacheLocationMissing = -1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a71a77dfc9561ca59031082dfd57dd5ca" name="a71a77dfc9561ca59031082dfd57dd5ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71a77dfc9561ca59031082dfd57dd5ca">&#9670;&#160;</a></span>L</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> L = <a class="el" href="#ac7c7ecdd5162f325b65a6b5c5c6c40ca">indices_end</a> - <a class="el" href="#a43255cb54bbd791afb26a23af02acfec">indices_start</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8f5e19e19f12974c9713e920ec54331" name="ad8f5e19e19f12974c9713e920ec54331"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8f5e19e19f12974c9713e920ec54331">&#9670;&#160;</a></span>left</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> left = 0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a10c64e822d3634da34b9bf1f0c38d757" name="a10c64e822d3634da34b9bf1f0c38d757"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10c64e822d3634da34b9bf1f0c38d757">&#9670;&#160;</a></span>length_to_feature_idx</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> length_to_feature_idx</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <span class="keyword">auto</span> b_t = blockIdx.x * blockDim.x + threadIdx.x</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acbebb5d71fe9389f7b919325112c1548" name="acbebb5d71fe9389f7b919325112c1548"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acbebb5d71fe9389f7b919325112c1548">&#9670;&#160;</a></span>lengths</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> lengths</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b15eac55dd0239102e264b41febb49f" name="a2b15eac55dd0239102e264b41febb49f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b15eac55dd0239102e264b41febb49f">&#9670;&#160;</a></span>lengths_addrs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> lengths_addrs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a80de4cfcf0b435f1edbf9ba9cb999695" name="a80de4cfcf0b435f1edbf9ba9cb999695"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80de4cfcf0b435f1edbf9ba9cb999695">&#9670;&#160;</a></span>lengths_end</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> lengths_end = <a class="el" href="#ab245b3e7b831d8e003a353250359843d">lengths_offsets</a>[<a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a> + 1]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8b8d41e5b0a7f0f67d18d46f561eef8" name="ad8b8d41e5b0a7f0f67d18d46f561eef8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8b8d41e5b0a7f0f67d18d46f561eef8">&#9670;&#160;</a></span>lengths_is_long</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> lengths_is_long</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab245b3e7b831d8e003a353250359843d" name="ab245b3e7b831d8e003a353250359843d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab245b3e7b831d8e003a353250359843d">&#9670;&#160;</a></span>lengths_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> lengths_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a332f5a97c570870675755b52b91919d6" name="a332f5a97c570870675755b52b91919d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a332f5a97c570870675755b52b91919d6">&#9670;&#160;</a></span>lengths_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> lengths_start = <a class="el" href="#ab245b3e7b831d8e003a353250359843d">lengths_offsets</a>[<a class="el" href="#a07403af74afe12cdace7e1ec4ff38e72">list_id</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a177d197b75db75ee70711f48a28e1524" name="a177d197b75db75ee70711f48a28e1524"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a177d197b75db75ee70711f48a28e1524">&#9670;&#160;</a></span>linear_index</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> linear_index = <a class="el" href="#a30d761b81b0e05f95a7a118a17d6c4a2">sorted_linear_indices_run</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">run_id</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07403af74afe12cdace7e1ec4ff38e72" name="a07403af74afe12cdace7e1ec4ff38e72"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07403af74afe12cdace7e1ec4ff38e72">&#9670;&#160;</a></span>list_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> list_id</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a666f6d4fb27d254047edf38944a98e81" name="a666f6d4fb27d254047edf38944a98e81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a666f6d4fb27d254047edf38944a98e81">&#9670;&#160;</a></span>logit_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> logit_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af75fe947c4a976895a9fb2c7501439b1" name="af75fe947c4a976895a9fb2c7501439b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af75fe947c4a976895a9fb2c7501439b1">&#9670;&#160;</a></span>MAX_ELEMENTS_PER_THREAD</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> MAX_ELEMENTS_PER_THREAD = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a726d1405842124631d2e9543e6abfd70" name="a726d1405842124631d2e9543e6abfd70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a726d1405842124631d2e9543e6abfd70">&#9670;&#160;</a></span>my_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> my_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e34aefb3cc5403a07c020131077100a" name="a4e34aefb3cc5403a07c020131077100a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e34aefb3cc5403a07c020131077100a">&#9670;&#160;</a></span>n</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> n = blockIdx.z</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12ee89697c142bf6626fc9773b3784ce" name="a12ee89697c142bf6626fc9773b3784ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12ee89697c142bf6626fc9773b3784ce">&#9670;&#160;</a></span>new_indices_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> new_indices_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2590465d158f637aa65cb705ceff155d" name="a2590465d158f637aa65cb705ceff155d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2590465d158f637aa65cb705ceff155d">&#9670;&#160;</a></span>new_lengths_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> new_lengths_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">using </span>uscalar_t = std::make_unsigned_t&lt;scalar_t&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ab36576a24b49bfce1e9b6ff66a37ebe1" name="ab36576a24b49bfce1e9b6ff66a37ebe1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab36576a24b49bfce1e9b6ff66a37ebe1">&#9670;&#160;</a></span>new_offsets_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> new_offsets_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1543754093f5b3f003f28b6120d4508f" name="a1543754093f5b3f003f28b6120d4508f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1543754093f5b3f003f28b6120d4508f">&#9670;&#160;</a></span>new_pos_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> new_pos_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">using </span>uindex_t = std::make_unsigned_t&lt;index_t&gt;</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a2aaf9a58df0549a13d01ab53cd60ddff" name="a2aaf9a58df0549a13d01ab53cd60ddff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2aaf9a58df0549a13d01ab53cd60ddff">&#9670;&#160;</a></span>new_weights_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> new_weights_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac588c52c993fa6f169cb54d418ea584c" name="ac588c52c993fa6f169cb54d418ea584c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac588c52c993fa6f169cb54d418ea584c">&#9670;&#160;</a></span>next_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> next_offset = <a class="el" href="#a091bd2259a1e959d0052ad2fa399065f">segment_offsets_data</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a> + 1]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a711d3a0cadc94f73da860c1ffd01e1b2" name="a711d3a0cadc94f73da860c1ffd01e1b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a711d3a0cadc94f73da860c1ffd01e1b2">&#9670;&#160;</a></span>NUM_ARGS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">constexpr</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> NUM_ARGS = 7</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff8ee4d321b4a815868fe53b25b8fe6b" name="aff8ee4d321b4a815868fe53b25b8fe6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff8ee4d321b4a815868fe53b25b8fe6b">&#9670;&#160;</a></span>num_bins</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> num_bins</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f734f38c3537666ae53e906e65c1a6e" name="a2f734f38c3537666ae53e906e65c1a6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f734f38c3537666ae53e906e65c1a6e">&#9670;&#160;</a></span>num_cols_group</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* num_cols_group</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a447e5ea8dc79992a05131d8803d2bf7e" name="a447e5ea8dc79992a05131d8803d2bf7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a447e5ea8dc79992a05131d8803d2bf7e">&#9670;&#160;</a></span>num_lists</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> num_lists</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a13adcdfa105d3fe5d68bfeae4df5f017" name="a13adcdfa105d3fe5d68bfeae4df5f017"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a13adcdfa105d3fe5d68bfeae4df5f017">&#9670;&#160;</a></span>num_segments</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> num_segments</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeb2ce03cab381b1393d4c7c355ef2286" name="aeb2ce03cab381b1393d4c7c355ef2286"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb2ce03cab381b1393d4c7c355ef2286">&#9670;&#160;</a></span>num_work_rows</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> num_work_rows</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad33dfd216d9ea27b505a304ca3e32da" name="aad33dfd216d9ea27b505a304ca3e32da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad33dfd216d9ea27b505a304ca3e32da">&#9670;&#160;</a></span>offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a66f41f5ea495c26af7e2007fe0a28edc" name="a66f41f5ea495c26af7e2007fe0a28edc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a66f41f5ea495c26af7e2007fe0a28edc">&#9670;&#160;</a></span>offsets_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> offsets_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae662e9187ce6364e1668803dfbf7e7d0" name="ae662e9187ce6364e1668803dfbf7e7d0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae662e9187ce6364e1668803dfbf7e7d0">&#9670;&#160;</a></span>output</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> * output</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  index_t <a class="code hl_variable" href="#aba761028ac72c20c7defaef09de61d95">sum_E</a> = <a class="code hl_variable" href="#a114a2ddecfbdbb209bc791977fcb1c0e">table_offsets</a>[<a class="code hl_variable" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>]</div>
+<div class="ttc" id="agen__embedding__forward__split__unweighted__codegen__cuda_8cu_html_a2ee4b3e799d56c4d34c87190c37a7a64"><div class="ttname"><a href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a></div><div class="ttdeci">__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta const emb_t *__restrict__ const const cache_t *__restrict__ const const int32_t *__restrict__ const const uint32_t const uint32_t T</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_split_unweighted_codegen_cuda.cu:61</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a114a2ddecfbdbb209bc791977fcb1c0e"><div class="ttname"><a href="#a114a2ddecfbdbb209bc791977fcb1c0e">fbgemm_gpu::table_offsets</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ table_offsets</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:24</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aba761028ac72c20c7defaef09de61d95"><div class="ttname"><a href="#aba761028ac72c20c7defaef09de61d95">fbgemm_gpu::sum_E</a></div><div class="ttdeci">index_t sum_E</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:166</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a783fcd132908afcc711d1a7fb2cb51a7" name="a783fcd132908afcc711d1a7fb2cb51a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a783fcd132908afcc711d1a7fb2cb51a7">&#9670;&#160;</a></span>output_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* output_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">typedef</span> <a class="code hl_define" href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">FBGEMM_GPU_CUB_NS_PREFIX</a> cub::BlockReduce&lt;scalar_t, 256&gt; BlockReduce</div>
+<div class="ttc" id="acub__namespace__postfix_8cuh_html_a12567f2486c4686871a5330dbd8e9bb4"><div class="ttname"><a href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">FBGEMM_GPU_CUB_NS_PREFIX</a></div><div class="ttdeci">#define FBGEMM_GPU_CUB_NS_PREFIX</div><div class="ttdef"><b>Definition</b> cub_namespace_postfix.cuh:34</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a72822c0cc98165904fdc0110344ecdd5" name="a72822c0cc98165904fdc0110344ecdd5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a72822c0cc98165904fdc0110344ecdd5">&#9670;&#160;</a></span>output_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> output_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa80e8b11fe8b3b1a619f329aeb089f54" name="aa80e8b11fe8b3b1a619f329aeb089f54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa80e8b11fe8b3b1a619f329aeb089f54">&#9670;&#160;</a></span>output_permute</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> output_permute</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keyword">const</span> <a class="code hl_variable" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> t_start = blockIdx.x * blockDim.y + threadIdx.y</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a038ee34932113e6d3d38345920211f4c" name="a038ee34932113e6d3d38345920211f4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a038ee34932113e6d3d38345920211f4c">&#9670;&#160;</a></span>output_ptrs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* output_ptrs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34e6956031d1fc5c0f8df5fb432bcfbd" name="a34e6956031d1fc5c0f8df5fb432bcfbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34e6956031d1fc5c0f8df5fb432bcfbd">&#9670;&#160;</a></span>per_sample_weights_addrs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> per_sample_weights_addrs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a313d400789ec7e8bf0702c1d06339394" name="a313d400789ec7e8bf0702c1d06339394"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a313d400789ec7e8bf0702c1d06339394">&#9670;&#160;</a></span>permute</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> permute</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab448dead4746a419f7d4a69a32c788ea" name="ab448dead4746a419f7d4a69a32c788ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab448dead4746a419f7d4a69a32c788ea">&#9670;&#160;</a></span>permuted_indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> permuted_indices</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a77fcd99017c7bb6155d154951f8f45bc" name="a77fcd99017c7bb6155d154951f8f45bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77fcd99017c7bb6155d154951f8f45bc">&#9670;&#160;</a></span>permuted_lengths_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> permuted_lengths_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3035a61c641ca380da28b01558f5fdaa" name="a3035a61c641ca380da28b01558f5fdaa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3035a61c641ca380da28b01558f5fdaa">&#9670;&#160;</a></span>permuted_weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offsets_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> permuted_weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <a class="code hl_variable" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> b_t_start = blockIdx.x * blockDim.y + threadIdx.y</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a63c15a2ca68e0a1638710ac9d5335e6a" name="a63c15a2ca68e0a1638710ac9d5335e6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a63c15a2ca68e0a1638710ac9d5335e6a">&#9670;&#160;</a></span>pre_sigmoid</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">LogitType</a> pre_sigmoid = <a class="el" href="#a666f6d4fb27d254047edf38944a98e81">logit_data</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index</a>] + <a class="el" href="#a6b36a55458d7d4b9024fd515605c29ee">recalibrate_value</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef9d86cd563a5416a6c556a5902c966d" name="aef9d86cd563a5416a6c556a5902c966d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef9d86cd563a5416a6c556a5902c966d">&#9670;&#160;</a></span>range_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> range_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">{</div>
+<div class="line">  <span class="keywordtype">int</span> start_row_idx = blockIdx.x * blockDim.y + threadIdx.y</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ad7972a8cfd2b4fbe5e0b5b29f12beaa7" name="ad7972a8cfd2b4fbe5e0b5b29f12beaa7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad7972a8cfd2b4fbe5e0b5b29f12beaa7">&#9670;&#160;</a></span>range_size</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> range_size</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b36a55458d7d4b9024fd515605c29ee" name="a6b36a55458d7d4b9024fd515605c29ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b36a55458d7d4b9024fd515605c29ee">&#9670;&#160;</a></span>recalibrate_value</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> recalibrate_value</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f54f8b71f0d765e2b7dbd9a8b9774ff" name="a2f54f8b71f0d765e2b7dbd9a8b9774ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f54f8b71f0d765e2b7dbd9a8b9774ff">&#9670;&#160;</a></span>right</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> right = <a class="el" href="#aff8ee4d321b4a815868fe53b25b8fe6b">num_bins</a> - 1</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4311f4976e51399caed297d2cad3bfd3" name="a4311f4976e51399caed297d2cad3bfd3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4311f4976e51399caed297d2cad3bfd3">&#9670;&#160;</a></span>seg_end</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> seg_end = <a class="el" href="#a0523b0079ced4e8a092ec1f3e5b5a193">csr_seg_data</a>[blockIdx.x + 1] * <a class="el" href="#add6df347839b36aa580f997fddaebf86">batch_size</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adc735e446799084e3d27da58cf5807c3" name="adc735e446799084e3d27da58cf5807c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc735e446799084e3d27da58cf5807c3">&#9670;&#160;</a></span>seg_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> seg_start = <a class="el" href="#a0523b0079ced4e8a092ec1f3e5b5a193">csr_seg_data</a>[blockIdx.x] * <a class="el" href="#add6df347839b36aa580f997fddaebf86">batch_size</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a00965ae9e18f8292077b81d9040515c0" name="a00965ae9e18f8292077b81d9040515c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a00965ae9e18f8292077b81d9040515c0">&#9670;&#160;</a></span>segment_end</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> segment_end</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">      <a class="code hl_variable" href="#ae6972dc3932ca715765452e39f97f21b">sorted_linear_indices_cumulative_run_lengths</a>[run_id + 1]</div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_ae6972dc3932ca715765452e39f97f21b"><div class="ttname"><a href="#ae6972dc3932ca715765452e39f97f21b">fbgemm_gpu::sorted_linear_indices_cumulative_run_lengths</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ const at::PackedTensorAccessor32&lt; index_t, 1, at::RestrictPtrTraits &gt; const int32_t *__restrict__ sorted_linear_indices_cumulative_run_lengths</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:125</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a091bd2259a1e959d0052ad2fa399065f" name="a091bd2259a1e959d0052ad2fa399065f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a091bd2259a1e959d0052ad2fa399065f">&#9670;&#160;</a></span>segment_offsets_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueType</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">OffsetType</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> segment_offsets_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa58de74ea57ed45322b04e829cb75d9b" name="aa58de74ea57ed45322b04e829cb75d9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa58de74ea57ed45322b04e829cb75d9b">&#9670;&#160;</a></span>segment_start</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> segment_start = <a class="el" href="#ae6972dc3932ca715765452e39f97f21b">sorted_linear_indices_cumulative_run_lengths</a>[<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">run_id</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac49066d09ce07fcb75c1f913da32b626" name="ac49066d09ce07fcb75c1f913da32b626"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac49066d09ce07fcb75c1f913da32b626">&#9670;&#160;</a></span>segment_value_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueType</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> segment_value_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4478543eef2b1a98a328e4c634b5f6ad" name="a4478543eef2b1a98a328e4c634b5f6ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4478543eef2b1a98a328e4c634b5f6ad">&#9670;&#160;</a></span>SL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> SL = <a class="el" href="#a00965ae9e18f8292077b81d9040515c0">segment_end</a> - <a class="el" href="#aa58de74ea57ed45322b04e829cb75d9b">segment_start</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a89d9dff100cfa1f022fcfbf61e2500cc" name="a89d9dff100cfa1f022fcfbf61e2500cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89d9dff100cfa1f022fcfbf61e2500cc">&#9670;&#160;</a></span>sorted_infos</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> sorted_infos</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae6972dc3932ca715765452e39f97f21b" name="ae6972dc3932ca715765452e39f97f21b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6972dc3932ca715765452e39f97f21b">&#9670;&#160;</a></span>sorted_linear_indices_cumulative_run_lengths</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> sorted_linear_indices_cumulative_run_lengths</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9531de3506c1c1753051c949613ee1b5" name="a9531de3506c1c1753051c949613ee1b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9531de3506c1c1753051c949613ee1b5">&#9670;&#160;</a></span>sorted_linear_indices_num_runs</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> sorted_linear_indices_num_runs</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a30d761b81b0e05f95a7a118a17d6c4a2" name="a30d761b81b0e05f95a7a118a17d6c4a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30d761b81b0e05f95a7a118a17d6c4a2">&#9670;&#160;</a></span>sorted_linear_indices_run</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PackedTensorAccessor32&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, at::RestrictPtrTraits&gt; sorted_linear_indices_run</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a119724f55ff744b85a20a870b5da4152" name="a119724f55ff744b85a20a870b5da4152"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a119724f55ff744b85a20a870b5da4152">&#9670;&#160;</a></span>src_idx</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> src_idx = (<a class="el" href="#a039dca4bc32e9ad20122b5855542e292">warp_id</a> * kWarpSize + threadIdx.x) * <a class="el" href="#a14fea42ceabd6ac042ad0d2fe5452762">VEC_WIDTH</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb9cbb13307ba09bfd2a13ca7abbb19b" name="abb9cbb13307ba09bfd2a13ca7abbb19b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb9cbb13307ba09bfd2a13ca7abbb19b">&#9670;&#160;</a></span>start_input</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> start_input</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17e8d602b1d99905e55e6b875dc306b5" name="a17e8d602b1d99905e55e6b875dc306b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17e8d602b1d99905e55e6b875dc306b5">&#9670;&#160;</a></span>step</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> step</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85f38ec0d4f8474b6d4ccad168974cf9" name="a85f38ec0d4f8474b6d4ccad168974cf9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85f38ec0d4f8474b6d4ccad168974cf9">&#9670;&#160;</a></span>stride</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> stride = gridDim.x * blockDim.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adb83758639b252f212d790847ca2f6b6" name="adb83758639b252f212d790847ca2f6b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb83758639b252f212d790847ca2f6b6">&#9670;&#160;</a></span>sum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> sum = 0.0</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba761028ac72c20c7defaef09de61d95" name="aba761028ac72c20c7defaef09de61d95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba761028ac72c20c7defaef09de61d95">&#9670;&#160;</a></span>sum_E</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> sum_E = <a class="el" href="#a114a2ddecfbdbb209bc791977fcb1c0e">table_offsets</a>[<a class="el" href="#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2bef322c4183a01bc9d8e3c084ae1d15" name="a2bef322c4183a01bc9d8e3c084ae1d15"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2bef322c4183a01bc9d8e3c084ae1d15">&#9670;&#160;</a></span>T</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> T</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa80cbea4714c980d14626fd87c9287a4" name="aa80cbea4714c980d14626fd87c9287a4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa80cbea4714c980d14626fd87c9287a4">&#9670;&#160;</a></span>t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">auto</a> t = blockIdx.y</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a242d5a911279d9ad2128346af039383f" name="a242d5a911279d9ad2128346af039383f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a242d5a911279d9ad2128346af039383f">&#9670;&#160;</a></span>table_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> table_offset = <a class="el" href="#a114a2ddecfbdbb209bc791977fcb1c0e">table_offsets</a>[<a class="el" href="#aa80cbea4714c980d14626fd87c9287a4">t</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a114a2ddecfbdbb209bc791977fcb1c0e" name="a114a2ddecfbdbb209bc791977fcb1c0e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a114a2ddecfbdbb209bc791977fcb1c0e">&#9670;&#160;</a></span>table_offsets</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> table_offsets</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0fce99009259dbc5e5c0527eb5b3f64" name="ad0fce99009259dbc5e5c0527eb5b3f64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0fce99009259dbc5e5c0527eb5b3f64">&#9670;&#160;</a></span>temp_storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__shared__</a> BlockReduce::TempStorage temp_storage</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa403c596f919b42af361fc6554cce9e0" name="aa403c596f919b42af361fc6554cce9e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa403c596f919b42af361fc6554cce9e0">&#9670;&#160;</a></span>unbucketize_permute_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">offset_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> unbucketize_permute_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7b13aa0c4501d0593484a73afe8786c2" name="a7b13aa0c4501d0593484a73afe8786c2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b13aa0c4501d0593484a73afe8786c2">&#9670;&#160;</a></span>uncalibrated</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> uncalibrated = 1.0 / (1.0 + <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exp</a>(-<a class="el" href="#a63c15a2ca68e0a1638710ac9d5335e6a">pre_sigmoid</a>))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7acf47e01ed08917ef22330aaa8f95d" name="af7acf47e01ed08917ef22330aaa8f95d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7acf47e01ed08917ef22330aaa8f95d">&#9670;&#160;</a></span>values_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* values_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b717a692f34f1bc7afb9eec6d5f9a2e" name="a6b717a692f34f1bc7afb9eec6d5f9a2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b717a692f34f1bc7afb9eec6d5f9a2e">&#9670;&#160;</a></span>vec_copy_with_implicit_type_cast&lt; int64_t, int32_t, VEC_WIDTH &gt;</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="#ad8b8d41e5b0a7f0f67d18d46f561eef8">lengths_is_long</a>&amp; [<a class="el" href="#a96187c00fa81aaf4d6404cc915a5d7b7">is_long_idx</a>] <a class="el" href="#ace5ac8a87afdca35747d5c9bd8e33e73">is_long_mask</a> <a class="el" href="#a8c639f9912105390e4083332e01ecc57">vec_copy_with_implicit_type_cast</a>&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a>, <a class="el" href="#a14fea42ceabd6ac042ad0d2fe5452762">VEC_WIDTH</a> &gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a039dca4bc32e9ad20122b5855542e292" name="a039dca4bc32e9ad20122b5855542e292"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a039dca4bc32e9ad20122b5855542e292">&#9670;&#160;</a></span>warp_id</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> warp_id</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aecfb31f7c9583dd16ed7463ad8328db4" name="aecfb31f7c9583dd16ed7463ad8328db4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecfb31f7c9583dd16ed7463ad8328db4">&#9670;&#160;</a></span>warp_offsets_group</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>* warp_offsets_group</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab1426ad1956909abff1b26d04575767a" name="ab1426ad1956909abff1b26d04575767a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab1426ad1956909abff1b26d04575767a">&#9670;&#160;</a></span>weight</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> weight</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adc8829ea4c8f30f6aaef00680ba3754a" name="adc8829ea4c8f30f6aaef00680ba3754a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc8829ea4c8f30f6aaef00680ba3754a">&#9670;&#160;</a></span>weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">indices_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_t</a>* <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> weights</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1148e12a9142c43e97064ffe24a0aa63" name="a1148e12a9142c43e97064ffe24a0aa63"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1148e12a9142c43e97064ffe24a0aa63">&#9670;&#160;</a></span>weights_data</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__restrict__</a> weights_data</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespaceinternal.html b/namespaceinternal.html
new file mode 100644
index 000000000..6cc297d16
--- /dev/null
+++ b/namespaceinternal.html
@@ -0,0 +1,247 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: internal Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle"><div class="title">internal Namespace Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="adff2ce52cb6a5e84b57614a452aa77d5" name="adff2ce52cb6a5e84b57614a452aa77d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adff2ce52cb6a5e84b57614a452aa77d5">&#9670;&#160;</a></span>csr2csc()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> csr2csc </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>csc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>table_to_feature_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8f896e4d2c97b1369a8e5fb7d9408b7" name="ab8f896e4d2c97b1369a8e5fb7d9408b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8f896e4d2c97b1369a8e5fb7d9408b7">&#9670;&#160;</a></span>csr2csc&lt; double &gt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="#adff2ce52cb6a5e84b57614a452aa77d5">csr2csc</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>csc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>table_to_feature_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3715c6c222855aa1b842c358fe2a6420" name="a3715c6c222855aa1b842c358fe2a6420"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3715c6c222855aa1b842c358fe2a6420">&#9670;&#160;</a></span>csr2csc&lt; float &gt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="#adff2ce52cb6a5e84b57614a452aa77d5">csr2csc</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>csc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::TensorAccessor&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, 1 &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>csr_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> *</td>          <td class="paramname"><span class="paramname"><em>table_to_feature_offset</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_embeddings</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers.html b/namespacemembers.html
new file mode 100644
index 000000000..dc9101907
--- /dev/null
+++ b/namespacemembers.html
@@ -0,0 +1,146 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index__5F" name="index__5F"></a>- _ -</h3><ul>
+<li>__align__()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac5ef7f218ca22e4dd93d4161458006f6">fbgemm_gpu</a></li>
+<li>__launch_bounds__()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afd2e24ffed8f057a2092d699b4cb3cb0">fbgemm_gpu</a>, <a class="el" href="namespacenbit.html#a0a75b5eade7f9536629ce45b5827fb31">nbit</a></li>
+<li>_bfloat16_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8c67a657c3008d1d87472f216f7908f">fbgemm_gpu</a></li>
+<li>_bfloat16_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">fbgemm_gpu</a></li>
+<li>_block_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adaf7cd0195ff361555f35a017c018d25">fbgemm_gpu</a></li>
+<li>_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f2b214db9aa3f8887c267c0ea9f5edf">fbgemm_gpu</a></li>
+<li>_cat_int_tensors()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acd8fa4397185c592f5eac101b42504a6">fbgemm_gpu</a></li>
+<li>_cat_int_tensors_with_padding()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1376d05f5d6efb4fbdb869e391702adf">fbgemm_gpu</a></li>
+<li>_cat_per_sample_weights_list()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0eec17207e4a69da15dae845d02721e5">fbgemm_gpu</a></li>
+<li>_expand_into_jagged_permute_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac339123bb72d7421fca2d2b56821f02a">fbgemm_gpu</a></li>
+<li>_float_or_half_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__sparse-data-cuda.html#ga3b963d0e45c2bc0060aaa974efe64b8a">fbgemm_gpu</a></li>
+<li>_float_to_bfloat16_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a51665269174ef625316e519465a67839">fbgemm_gpu</a></li>
+<li>_float_to_bfloat16_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">fbgemm_gpu</a></li>
+<li>_float_to_FP8rowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga31b9029d43a60ad1fc90dc6ec54af9db">fbgemm_gpu</a></li>
+<li>_float_to_FP8rowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c5dca8da7ca5c5f89ecdc816745ba29">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_cpu_out()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad38a9310258acccab8a017c1616034d0">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_cpu_out_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7f58b5ea1ea6cd38a42f73e5d688bb2c">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga8c11c8dc06cae57b3afba79358c00e99">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a16bbb8557f4229489d966bb1d11bd00c">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a29553ad77238659bb86c14842103d1d5">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gaa3e8fd136e9bfa0e4d0c0016659bf708">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_gpu_t()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga02c8f9158646d9b16efbd3853711f56a">fbgemm_gpu</a></li>
+<li>_float_to_hfp8_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70e9b9692aae9789f0a3804b9d12efe5">fbgemm_gpu</a></li>
+<li>_float_to_hfp8_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">fbgemm_gpu</a></li>
+<li>_float_to_msfp_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">fbgemm_gpu</a></li>
+<li>_float_to_paddedFP8rowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga5043927653e4d50462b79b7f3df33223">fbgemm_gpu</a></li>
+<li>_float_to_paddedFP8rowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1d80140f030f2ca22fd14560e2d8aa42">fbgemm_gpu</a></li>
+<li>_FP8rowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70d90c85fad4384b23c8958a6c300ce2">fbgemm_gpu</a></li>
+<li>_FP8rowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac8931bd574641641dc69eadaae32efe3">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_cpu_out()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gabeb6675833a5b14e0a0d01385770a771">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_cpu_out_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc6b77e9be7ff8c2e5f16297fa6fad38">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aab093a380068925d1b267452a1e255c2">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25d0793a9d1fe66bccad409791738b7b">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_mixed_dim_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga4c2c033e940095d20e76e9e00fe925d3">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_half_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3aa2e594cf4bbb5cb5241c4eaa593f8a">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_single_or_half_precision_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gafacdb4ec7d8f5b969c75d2127537ab16">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa6141e72712885a0c89d74829be2fe6a">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae0193dd7bbb4e72fc977330cc3f019a4">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gae1e827b74f0825dc4135e68c10e443b3">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_or_half_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga07f4c02c95710472b815bdc1d7bfff19">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_half_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga6152517943258bd3adc42b7c103a9277">fbgemm_gpu</a></li>
+<li>_generic_histogram_binning_calibration_by_feature_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#accd75a24d809f4322a18bfb12f47b343">fbgemm_gpu</a></li>
+<li>_half_to_fused8bitrowwise_cpu_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a23bfcbc4afa5dd7d35ee03b7f23840a9">fbgemm_gpu</a></li>
+<li>_half_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adfeb2fc956b7aa5c2446a00ccbcd058e">fbgemm_gpu</a></li>
+<li>_half_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga6e2bd64f3f9e3b36493ec955680771af">fbgemm_gpu</a></li>
+<li>_hfp8_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa8438f606e84d5cb07827759163bec6">fbgemm_gpu</a></li>
+<li>_hfp8_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">fbgemm_gpu</a></li>
+<li>_histogram_binning_calibration_by_feature_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adce89aa38a4a22058ec42b5077bbe23a">fbgemm_gpu</a></li>
+<li>_histogram_binning_calibration_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7639f61a587aa5052c488fbd00d3784b">fbgemm_gpu</a></li>
+<li>_invert_permute_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7a8e9e91365de25b995833c08eb32eff">fbgemm_gpu</a></li>
+<li>_msfp_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">fbgemm_gpu</a></li>
+<li>_paddedFP8rowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afc30bb56977528d8a85e43f9aa5c2cf8">fbgemm_gpu</a></li>
+<li>_paddedFP8rowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c0b93e239757d9564c51f8922f17554">fbgemm_gpu</a></li>
+<li>_permute_1D_indices_weights_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0e07ade6f2b89bf71c344aac8106b59">fbgemm_gpu</a></li>
+<li>_permute_1D_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8dfcdb2c902cf1c4e5d0ed916d5fe779">fbgemm_gpu</a></li>
+<li>_permute_2D_indices_weights_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acad68edeefe7a7710f729cdc56876851">fbgemm_gpu</a></li>
+<li>_permute_2D_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a72c447e3b6d38b548d89ebc464e2d469">fbgemm_gpu</a></li>
+<li>_permute_data_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2fb715b347e075f3331083905cdaadfb">fbgemm_gpu</a></li>
+<li>_permute_embeddings_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6987e1403a25c256168873616dffbdf6">fbgemm_gpu</a></li>
+<li>_permute_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4c7749afd2c661b1d302268035fde42b">fbgemm_gpu</a></li>
+<li>_segment_sum_csr_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ade08c8b174b0ecbb99d01ad87b4da0b3">fbgemm_gpu</a></li>
+<li>_single_or_half_precision_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gaff285349cb9c51a56fc418b628772b16">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_a.html b/namespacemembers_a.html
new file mode 100644
index 000000000..90bb84329
--- /dev/null
+++ b/namespacemembers_a.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>accumulate_fp16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3de0ed0985acc3edc0583b6cd56a43f2">fbgemm_gpu</a></li>
+<li>accumulate_fp32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb3ef6437b744f52b29910361f83336c">fbgemm_gpu</a></li>
+<li>accumulate_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc596fdaac7efc925d19d7374251e8cb">fbgemm_gpu</a></li>
+<li>accumulate_packed_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a857c58d8bfc412a3901414ef0b0f73c5">fbgemm_gpu</a></li>
+<li>accumulate_packed_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af3478ab6f636e80a75953ffc1d8caed9">fbgemm_gpu</a></li>
+<li>accumulate_packed_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24c22ef27a441cb888d3b32957588794">fbgemm_gpu</a></li>
+<li>accumulate_weighted_fp16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2700bcf99c82f2491a174d51c462e4e8">fbgemm_gpu</a></li>
+<li>accumulate_weighted_fp32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7225f36d3ef25f69273160500bd0b9a7">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa177a98d987438afcde04f7fc2cba71a">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aebe17b37f24d82ea8cfbd296e307d5ab">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ade03f1b4099c9ecaf38d7d6a0eb7d595">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80d2d456b1c87f68c9098d5e5d1fd47d">fbgemm_gpu</a></li>
+<li>all_to_one_device()&#160;:&#160;<a class="el" href="group__merge-pooled-emb.html#ga3933c7465129b58edd60ffcc1999c223">fbgemm_gpu</a></li>
+<li>args_pos&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396">fbgemm_gpu</a></li>
+<li>assign()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6e69d027d43eb7e92ea620d43ae43cb1">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a98effac974dc3fe5bbcc4ce8a75578f7">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f31ee9922c98ad5d013361368f2f5ac">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a656bb5222f2a0bc92d5b895ba0fa846c">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a69fe5be794026bdb73b0196be9b345a4">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afd8b0919b5b3b021a8eb3727e304d5b4">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae96f1ffdb8ed1efd58561364fbaf3c6a">fbgemm_gpu</a></li>
+<li>asynchronous_inclusive_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8930419ab36c85750182c12db95baa29">fbgemm_gpu</a></li>
+<li>asynchronous_inclusive_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc0c0e7f6e816900474b2e52756ac891">fbgemm_gpu</a></li>
+<li>auc_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4bcadae3f465ece7979bf89f0c1cf22a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_b.html b/namespacemembers_b.html
new file mode 100644
index 000000000..11f0a594d
--- /dev/null
+++ b/namespacemembers_b.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>b&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab540864a8f4d5cfb95d168df6ff1ac51">fbgemm_gpu</a></li>
+<li>B&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu</a></li>
+<li>ballot_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac9ef3cbe68285c5559d30c5157131e29">fbgemm_gpu</a></li>
+<li>batch_auc()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abeeb6bd4d39a0e534db2213258704285">fbgemm_gpu</a></li>
+<li>batch_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#add6df347839b36aa580f997fddaebf86">fbgemm_gpu</a></li>
+<li>batch_size_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afba1f0bf46d421e1e2834949792290e0">fbgemm_gpu</a></li>
+<li>batch_size_per_feature&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34cfcac7aff478aac7e03c48a25b0447">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga67afdd148d57be07278c9cb088b5ff4b">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae815e5156f29e106f0fcb6054d386afa">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af5324c97be6dc5aecbc40e4e3244646f">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac3080e0008d5cdd9f1f32b33e38aee95">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a399af8be70030a7aeaedbdf546efe61a">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0e4965515624f44fcd114ff1e5ff0998">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96db75aa5b2617976c2937ab051b737e">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9895cf76445e7258f2464bb037d2c54c">fbgemm_gpu</a></li>
+<li>BFloat16QuantizedToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0f1d1afe56f116552e1ca9759e6e0fcc">fbgemm_gpu</a></li>
+<li>bin_boundaries&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970">fbgemm_gpu</a></li>
+<li>bin_ctr_in_use_after&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">fbgemm_gpu</a></li>
+<li>bin_ctr_weight_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">fbgemm_gpu</a></li>
+<li>bin_ids_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24c7d1d72baa0efece963a4ed4db9c17">fbgemm_gpu</a></li>
+<li>bin_num_examples_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad09ae93c92bfe0fe061460cfe4acd611">fbgemm_gpu</a></li>
+<li>bin_num_positives_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6cf3109a8de0f8ef7a818474a2fec845">fbgemm_gpu</a></li>
+<li>binary_search_range()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a13b4df4139f3c64ac4d8dbea51a7e7a0">fbgemm_gpu</a></li>
+<li>block_bucketize_pos_concat&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc943f4a5b9448babdf4b36ff9095dff">fbgemm_gpu</a></li>
+<li>block_bucketize_pos_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7caa87d119b6ee26ae8fe2b66671215c">fbgemm_gpu</a></li>
+<li>block_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a270e4d8df103fa6c3e6750890608b566">fbgemm_gpu</a></li>
+<li>block_bucketize_sparse_features_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a293dc249ac4679d97747778a7fb02bd5">fbgemm_gpu</a></li>
+<li>block_sizes_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab2cdb48bca4ebe95f2cdeedea09f549f">fbgemm_gpu</a></li>
+<li>BoundsCheckMode&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111ea">fbgemm_gpu</a></li>
+<li>bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a83c70249ce058969210bda8aedf671a4">fbgemm_gpu</a></li>
+<li>bucketize_sparse_features_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abb94f2bd00f8ee054a4a1d2417a093d1">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_c.html b/namespacemembers_c.html
new file mode 100644
index 000000000..77166d701
--- /dev/null
+++ b/namespacemembers_c.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>calc_offsets_range_thread_block()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae0656dd690bcffdd8b470d894e25b2d8">fbgemm_gpu</a></li>
+<li>calibrated_prediction_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5a04eca282d6278fd065294a91065404">fbgemm_gpu</a></li>
+<li>cat_reorder_batched_ad_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1ed236113fa360c41a2eb0507c3fc2c7">fbgemm_gpu</a></li>
+<li>cat_reorder_batched_ad_indices_cpu_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b5e65a3f532db97f093037c9dcb3902">fbgemm_gpu</a></li>
+<li>combined_lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a176c2b8769558803ba0614bc04b7995f">fbgemm_gpu</a></li>
+<li>combined_weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a426e281c9c2dd29c0abe399f17ba8d6f">fbgemm_gpu</a></li>
+<li>compute_frequency_sequence()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b41d7b032eb1abe61eee0bd903d8dfb">fbgemm_gpu</a></li>
+<li>compute_num_uint64s()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af861e4a8f7b669619744fe59ca2f73a3">fbgemm_gpu</a></li>
+<li>cp_async_fence()&#160;:&#160;<a class="el" href="namespacenbit.html#a9d3f5c31c0728bd8031522979f9fd236">nbit</a></li>
+<li>cp_async_wait()&#160;:&#160;<a class="el" href="namespacenbit.html#ab71806d51c0bb2fbc0b08fb3ed2b442e">nbit</a></li>
+<li>cp_async_wait&lt; 0 &gt;()&#160;:&#160;<a class="el" href="namespacenbit.html#a869b22b83f81fa2ed2302ceb80d9b9ca">nbit</a></li>
+<li>cp_async_zfill()&#160;:&#160;<a class="el" href="namespacenbit.html#ac46112b67b5de646034bc1d35d44c8fe">nbit</a></li>
+<li>cp_async_zfill_cg()&#160;:&#160;<a class="el" href="namespacenbit.html#a7f38bc64db06ad5e5ee1b4efa55c349d">nbit</a></li>
+<li>csr2csc()&#160;:&#160;<a class="el" href="namespaceinternal.html#adff2ce52cb6a5e84b57614a452aa77d5">internal</a></li>
+<li>csr2csc&lt; double &gt;()&#160;:&#160;<a class="el" href="namespaceinternal.html#ab8f896e4d2c97b1369a8e5fb7d9408b7">internal</a></li>
+<li>csr2csc&lt; float &gt;()&#160;:&#160;<a class="el" href="namespaceinternal.html#a3715c6c222855aa1b842c358fe2a6420">internal</a></li>
+<li>csr_seg_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0523b0079ced4e8a092ec1f3e5b5a193">fbgemm_gpu</a></li>
+<li>CUDA_KERNEL_LOOP()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a14c0f0b2b6107f2b17eb472d9be9fb03">fbgemm_gpu</a></li>
+<li>curr_bin_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80c593013706e17927a0cedd1d6dbb0">fbgemm_gpu</a></li>
+<li>curr_bin_num_examples&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afce91df3fd14c65d1d464b891004b1da">fbgemm_gpu</a></li>
+<li>curr_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5774000010ec731b390787b3b5f72868">fbgemm_gpu</a></li>
+<li>curr_segment_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a216663a22f5311b9ecf7c9bc64ee047d">fbgemm_gpu</a></li>
+<li>cutlass_get_smem_pointer()&#160;:&#160;<a class="el" href="namespacenbit.html#a64cf76bab7c5be6cb2b0c7d1b77443a5">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_d.html b/namespacemembers_d.html
new file mode 100644
index 000000000..1cf65b596
--- /dev/null
+++ b/namespacemembers_d.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>db_shard()&#160;:&#160;<a class="el" href="namespacessd.html#ac0918c17a5ef4ae94a7d4068512744f9">ssd</a></li>
+<li>dense_segment_value_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f93c0df9186a239cfd59505a464fc36">fbgemm_gpu</a></li>
+<li>dense_to_jagged()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gae25fa8a028fc083f06e445e1d2ebb208">fbgemm_gpu</a></li>
+<li>dense_to_jagged_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa5a76157eb45b9bd4159a548e8a73ce6">fbgemm_gpu</a></li>
+<li>dequantize_load()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee340827dbc6c104a400c30f47f3ee3b">fbgemm_gpu</a></li>
+<li>dequantize_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c388276a962d14b3070dc55202eaf66">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96be7f5b4c81d93bf024348e7b85e364">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2cf47d59251a0840fd370a95fa371681">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adec3504b0909c4380da3c0aac89055de">fbgemm_gpu</a></li>
+<li>direct_mapped_lru_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac827cf6cd0f063a6747deaff14e4902d">fbgemm_gpu</a></li>
+<li>direct_mapped_lxu_cache_lookup_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a03949dd527b81758e43a4b48800c3bc6">fbgemm_gpu</a></li>
+<li>div_round_up()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">fbgemm_gpu</a>, <a class="el" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef6bada16cf81832eb1e594eb47875d8">fbgemm_gpu</a></li>
+<li>dummy_packed_accessor32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a86a8cc18b54f6986ec4faeec0b223907">fbgemm_gpu</a></li>
+<li>dummy_packed_accessor64()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb6f64d8ceb0189b03aa6808b97e8b16">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_e.html b/namespacemembers_e.html
new file mode 100644
index 000000000..606e30650
--- /dev/null
+++ b/namespacemembers_e.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>else&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0544c3fe466e421738dae463968b70ba">fbgemm_gpu</a></li>
+<li>embedding_bag_rowwise_prune()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae586c9948dba8a67abf44ada58425fba">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa1807fa25793e61743b75d27db063cc">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af3e9e1ce0f6340f233ef6ae8934454cf">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34">fbgemm_gpu</a></li>
+<li>enum_item&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef71de4120929d2410f5d766948f8eaf">fbgemm_gpu</a></li>
+<li>enum_items&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5fdc84ce2202ea07eb2e865847bd8f34">fbgemm_gpu</a></li>
+<li>enum_result&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adbdc3251cbd2e995dfa31ffdf2c2df8e">fbgemm_gpu</a></li>
+<li>exclusive_scan_ptrs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa8eb0fcd765dc4580084f6d098604e0d">fbgemm_gpu</a></li>
+<li>expand_into_jagged_permute_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a02fab30a12d9d6ee6e6ae68bc8041481">fbgemm_gpu</a></li>
+<li>expand_into_jagged_permute_cuda()&#160;:&#160;<a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_enum.html b/namespacemembers_enum.html
new file mode 100644
index 000000000..d085167d3
--- /dev/null
+++ b/namespacemembers_enum.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace enums with links to the namespace documentation for each enum:</div><ul>
+<li>args_pos&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396">fbgemm_gpu</a></li>
+<li>BoundsCheckMode&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111ea">fbgemm_gpu</a></li>
+<li>PlacementType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194">fbgemm_gpu</a></li>
+<li>PoolingMode&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5d">fbgemm_gpu</a></li>
+<li>PrimitiveType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60">fbgemm_gpu</a></li>
+<li>SparseType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e">fbgemm_gpu</a></li>
+<li>uvm_cache_stats_index&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aa">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_eval.html b/namespacemembers_eval.html
new file mode 100644
index 000000000..a275d4360
--- /dev/null
+++ b/namespacemembers_eval.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace enum values with links to the namespace documentation for each enum value:</div><ul>
+<li>num_calls&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34">fbgemm_gpu</a></li>
+<li>num_conflict_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6">fbgemm_gpu</a></li>
+<li>num_conflict_unique_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6">fbgemm_gpu</a></li>
+<li>num_requested_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439">fbgemm_gpu</a></li>
+<li>num_unique_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc">fbgemm_gpu</a></li>
+<li>num_unique_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53">fbgemm_gpu</a></li>
+<li>P_indices_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125">fbgemm_gpu</a></li>
+<li>P_indices_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de">fbgemm_gpu</a></li>
+<li>P_indices_prts&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6">fbgemm_gpu</a></li>
+<li>P_lengths_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0">fbgemm_gpu</a></li>
+<li>P_lengths_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e">fbgemm_gpu</a></li>
+<li>P_lengths_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97">fbgemm_gpu</a></li>
+<li>P_per_sample_weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_f.html b/namespacemembers_f.html
new file mode 100644
index 000000000..22f082fbd
--- /dev/null
+++ b/namespacemembers_f.html
@@ -0,0 +1,119 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>false()&#160;:&#160;<a class="el" href="namespacenbit.html#a1628074b31c14dcc07fd3d859e9ddf89">nbit</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_START()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0e41e402bfba1e346c6dcc610252e94b">fbgemm_gpu</a></li>
+<li>fd_num_warps_per_list&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d2f3cd432a3bf2de49086fb33ef71cb">fbgemm_gpu</a></li>
+<li>fint32&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4783bbd9753251a335f9f8fa2dd97c8c">fbgemm_gpu</a></li>
+<li>float&#160;:&#160;<a class="el" href="namespacenbit.html#ae44f656615f2dcbbfec55dc3f365b9e3">nbit</a></li>
+<li>float16_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb046dd929c4c4190894087e0952b6ad">fbgemm_gpu</a></li>
+<li>float16_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aab696723995ed599860851113bfdae05">fbgemm_gpu</a></li>
+<li>float1_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a245cd4874d44db0533c14f1e5da13b0d">fbgemm_gpu</a></li>
+<li>float1_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ec9af370f9f9997a31175d653701b82">fbgemm_gpu</a></li>
+<li>float2_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a75186b0bdaba58d01566eec48d2f6602">fbgemm_gpu</a></li>
+<li>float2_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa0397156c968ae38da1e433bfd50d3a3">fbgemm_gpu</a></li>
+<li>float4_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7aaeb2b2ad68d85c51fb2b8697c70cc4">fbgemm_gpu</a></li>
+<li>float4_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adf07e886eabd113338425ed288c06a7b">fbgemm_gpu</a></li>
+<li>float8_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa292f064d1126228ac0d10457722616c">fbgemm_gpu</a></li>
+<li>float8_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abca50cf5035e82d7992586eac7b744cf">fbgemm_gpu</a></li>
+<li>float_or_half_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga06b7d2bf3fadaa9869555a64a6752ef7">fbgemm_gpu</a></li>
+<li>float_or_half_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae983a889f16302029fcc4e5fcd5ce34f">fbgemm_gpu</a></li>
+<li>float_to_FP8rowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad540dd7f8ad7601b3d9591114e4ef718">fbgemm_gpu</a></li>
+<li>float_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gacf598456fd7aced63b96e8a725f4c418">fbgemm_gpu</a></li>
+<li>float_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9330d767d66b257d1ffa28c67775b38e">fbgemm_gpu</a></li>
+<li>float_to_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9710845f2dffae8b40b17d49c169976b">fbgemm_gpu</a></li>
+<li>FloatToBFloat16Quantized_ref()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a46f430eb3d28bcd3fed6fbc61dec3bda">fbgemm_gpu</a></li>
+<li>FloatToFP8Quantized_ref()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad14f49d191c7960681206b7103d781c4">fbgemm_gpu</a></li>
+<li>FloatToFP8RowwiseQuantized_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5a525ef518134e136f23ab964d45dc23">fbgemm_gpu</a></li>
+<li>for()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af2287d510f303567f2d28d743aa716b6">fbgemm_gpu</a></li>
+<li>FP8QuantizedToFloat_ref()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga4c49e527f364bfa224ed34f4fe9f13e7">fbgemm_gpu</a></li>
+<li>FP8rowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga1d3b2f7c37e8755516ff8a4c504017e1">fbgemm_gpu</a></li>
+<li>FP8rowwise_to_float_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae7fdacc8f9e0ec9e1ede8102876ab537">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gab86a824fed15fab1c318359d069a5180">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_float_or_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad219617d0aa308f97fad8dfc6af20213">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga9284d774f5d4087da98453e96e64d00a">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_half_cpu_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a389ed2b83ea0f408fe19fbb46770c610">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga61c494baf4e410652ed897534d14aa29">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_float_or_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga5bd66d69876ef2493a6ebb4346c31bb9">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga1c32bf52a02928dbc573b4ac67065788">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func.html b/namespacemembers_func.html
new file mode 100644
index 000000000..c3b358eb1
--- /dev/null
+++ b/namespacemembers_func.html
@@ -0,0 +1,146 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index__5F" name="index__5F"></a>- _ -</h3><ul>
+<li>__align__()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac5ef7f218ca22e4dd93d4161458006f6">fbgemm_gpu</a></li>
+<li>__launch_bounds__()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afd2e24ffed8f057a2092d699b4cb3cb0">fbgemm_gpu</a>, <a class="el" href="namespacenbit.html#a0a75b5eade7f9536629ce45b5827fb31">nbit</a></li>
+<li>_bfloat16_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8c67a657c3008d1d87472f216f7908f">fbgemm_gpu</a></li>
+<li>_bfloat16_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">fbgemm_gpu</a></li>
+<li>_block_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adaf7cd0195ff361555f35a017c018d25">fbgemm_gpu</a></li>
+<li>_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f2b214db9aa3f8887c267c0ea9f5edf">fbgemm_gpu</a></li>
+<li>_cat_int_tensors()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acd8fa4397185c592f5eac101b42504a6">fbgemm_gpu</a></li>
+<li>_cat_int_tensors_with_padding()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1376d05f5d6efb4fbdb869e391702adf">fbgemm_gpu</a></li>
+<li>_cat_per_sample_weights_list()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0eec17207e4a69da15dae845d02721e5">fbgemm_gpu</a></li>
+<li>_expand_into_jagged_permute_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac339123bb72d7421fca2d2b56821f02a">fbgemm_gpu</a></li>
+<li>_float_or_half_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__sparse-data-cuda.html#ga3b963d0e45c2bc0060aaa974efe64b8a">fbgemm_gpu</a></li>
+<li>_float_to_bfloat16_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a51665269174ef625316e519465a67839">fbgemm_gpu</a></li>
+<li>_float_to_bfloat16_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">fbgemm_gpu</a></li>
+<li>_float_to_FP8rowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga31b9029d43a60ad1fc90dc6ec54af9db">fbgemm_gpu</a></li>
+<li>_float_to_FP8rowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c5dca8da7ca5c5f89ecdc816745ba29">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_cpu_out()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad38a9310258acccab8a017c1616034d0">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_cpu_out_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7f58b5ea1ea6cd38a42f73e5d688bb2c">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga8c11c8dc06cae57b3afba79358c00e99">fbgemm_gpu</a></li>
+<li>_float_to_fused8bitrowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a16bbb8557f4229489d966bb1d11bd00c">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a29553ad77238659bb86c14842103d1d5">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gaa3e8fd136e9bfa0e4d0c0016659bf708">fbgemm_gpu</a></li>
+<li>_float_to_fusednbitrowwise_gpu_t()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga02c8f9158646d9b16efbd3853711f56a">fbgemm_gpu</a></li>
+<li>_float_to_hfp8_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70e9b9692aae9789f0a3804b9d12efe5">fbgemm_gpu</a></li>
+<li>_float_to_hfp8_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">fbgemm_gpu</a></li>
+<li>_float_to_msfp_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">fbgemm_gpu</a></li>
+<li>_float_to_paddedFP8rowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga5043927653e4d50462b79b7f3df33223">fbgemm_gpu</a></li>
+<li>_float_to_paddedFP8rowwise_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1d80140f030f2ca22fd14560e2d8aa42">fbgemm_gpu</a></li>
+<li>_FP8rowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70d90c85fad4384b23c8958a6c300ce2">fbgemm_gpu</a></li>
+<li>_FP8rowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac8931bd574641641dc69eadaae32efe3">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_cpu_out()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gabeb6675833a5b14e0a0d01385770a771">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_cpu_out_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc6b77e9be7ff8c2e5f16297fa6fad38">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aab093a380068925d1b267452a1e255c2">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25d0793a9d1fe66bccad409791738b7b">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_float_mixed_dim_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga4c2c033e940095d20e76e9e00fe925d3">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_half_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3aa2e594cf4bbb5cb5241c4eaa593f8a">fbgemm_gpu</a></li>
+<li>_fused8bitrowwise_to_single_or_half_precision_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gafacdb4ec7d8f5b969c75d2127537ab16">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa6141e72712885a0c89d74829be2fe6a">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae0193dd7bbb4e72fc977330cc3f019a4">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gae1e827b74f0825dc4135e68c10e443b3">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_float_or_half_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga07f4c02c95710472b815bdc1d7bfff19">fbgemm_gpu</a></li>
+<li>_fusednbitrowwise_to_half_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga6152517943258bd3adc42b7c103a9277">fbgemm_gpu</a></li>
+<li>_generic_histogram_binning_calibration_by_feature_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#accd75a24d809f4322a18bfb12f47b343">fbgemm_gpu</a></li>
+<li>_half_to_fused8bitrowwise_cpu_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a23bfcbc4afa5dd7d35ee03b7f23840a9">fbgemm_gpu</a></li>
+<li>_half_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adfeb2fc956b7aa5c2446a00ccbcd058e">fbgemm_gpu</a></li>
+<li>_half_to_fusednbitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga6e2bd64f3f9e3b36493ec955680771af">fbgemm_gpu</a></li>
+<li>_hfp8_to_float_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa8438f606e84d5cb07827759163bec6">fbgemm_gpu</a></li>
+<li>_hfp8_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">fbgemm_gpu</a></li>
+<li>_histogram_binning_calibration_by_feature_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adce89aa38a4a22058ec42b5077bbe23a">fbgemm_gpu</a></li>
+<li>_histogram_binning_calibration_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7639f61a587aa5052c488fbd00d3784b">fbgemm_gpu</a></li>
+<li>_invert_permute_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7a8e9e91365de25b995833c08eb32eff">fbgemm_gpu</a></li>
+<li>_msfp_to_float_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">fbgemm_gpu</a></li>
+<li>_paddedFP8rowwise_to_float_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afc30bb56977528d8a85e43f9aa5c2cf8">fbgemm_gpu</a></li>
+<li>_paddedFP8rowwise_to_float_gpu_t()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c0b93e239757d9564c51f8922f17554">fbgemm_gpu</a></li>
+<li>_permute_1D_indices_weights_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0e07ade6f2b89bf71c344aac8106b59">fbgemm_gpu</a></li>
+<li>_permute_1D_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8dfcdb2c902cf1c4e5d0ed916d5fe779">fbgemm_gpu</a></li>
+<li>_permute_2D_indices_weights_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acad68edeefe7a7710f729cdc56876851">fbgemm_gpu</a></li>
+<li>_permute_2D_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a72c447e3b6d38b548d89ebc464e2d469">fbgemm_gpu</a></li>
+<li>_permute_data_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2fb715b347e075f3331083905cdaadfb">fbgemm_gpu</a></li>
+<li>_permute_embeddings_kernel_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6987e1403a25c256168873616dffbdf6">fbgemm_gpu</a></li>
+<li>_permute_lengths_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4c7749afd2c661b1d302268035fde42b">fbgemm_gpu</a></li>
+<li>_segment_sum_csr_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ade08c8b174b0ecbb99d01ad87b4da0b3">fbgemm_gpu</a></li>
+<li>_single_or_half_precision_to_fused8bitrowwise_gpu()&#160;:&#160;<a class="el" href="group__quantize-ops-cuda.html#gaff285349cb9c51a56fc418b628772b16">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_a.html b/namespacemembers_func_a.html
new file mode 100644
index 000000000..9eccf05ca
--- /dev/null
+++ b/namespacemembers_func_a.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_a" name="index_a"></a>- a -</h3><ul>
+<li>accumulate_fp16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3de0ed0985acc3edc0583b6cd56a43f2">fbgemm_gpu</a></li>
+<li>accumulate_fp32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb3ef6437b744f52b29910361f83336c">fbgemm_gpu</a></li>
+<li>accumulate_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc596fdaac7efc925d19d7374251e8cb">fbgemm_gpu</a></li>
+<li>accumulate_packed_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a857c58d8bfc412a3901414ef0b0f73c5">fbgemm_gpu</a></li>
+<li>accumulate_packed_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af3478ab6f636e80a75953ffc1d8caed9">fbgemm_gpu</a></li>
+<li>accumulate_packed_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24c22ef27a441cb888d3b32957588794">fbgemm_gpu</a></li>
+<li>accumulate_weighted_fp16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2700bcf99c82f2491a174d51c462e4e8">fbgemm_gpu</a></li>
+<li>accumulate_weighted_fp32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7225f36d3ef25f69273160500bd0b9a7">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa177a98d987438afcde04f7fc2cba71a">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aebe17b37f24d82ea8cfbd296e307d5ab">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ade03f1b4099c9ecaf38d7d6a0eb7d595">fbgemm_gpu</a></li>
+<li>accumulate_weighted_packed_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80d2d456b1c87f68c9098d5e5d1fd47d">fbgemm_gpu</a></li>
+<li>all_to_one_device()&#160;:&#160;<a class="el" href="group__merge-pooled-emb.html#ga3933c7465129b58edd60ffcc1999c223">fbgemm_gpu</a></li>
+<li>assign()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6e69d027d43eb7e92ea620d43ae43cb1">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a98effac974dc3fe5bbcc4ce8a75578f7">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f31ee9922c98ad5d013361368f2f5ac">fbgemm_gpu</a></li>
+<li>asynchronous_complete_cumsum_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a656bb5222f2a0bc92d5b895ba0fa846c">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a69fe5be794026bdb73b0196be9b345a4">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afd8b0919b5b3b021a8eb3727e304d5b4">fbgemm_gpu</a></li>
+<li>asynchronous_exclusive_cumsum_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae96f1ffdb8ed1efd58561364fbaf3c6a">fbgemm_gpu</a></li>
+<li>asynchronous_inclusive_cumsum_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8930419ab36c85750182c12db95baa29">fbgemm_gpu</a></li>
+<li>asynchronous_inclusive_cumsum_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc0c0e7f6e816900474b2e52756ac891">fbgemm_gpu</a></li>
+<li>auc_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4bcadae3f465ece7979bf89f0c1cf22a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_b.html b/namespacemembers_func_b.html
new file mode 100644
index 000000000..477e85b54
--- /dev/null
+++ b/namespacemembers_func_b.html
@@ -0,0 +1,100 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>ballot_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac9ef3cbe68285c5559d30c5157131e29">fbgemm_gpu</a></li>
+<li>batch_auc()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abeeb6bd4d39a0e534db2213258704285">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga67afdd148d57be07278c9cb088b5ff4b">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae815e5156f29e106f0fcb6054d386afa">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af5324c97be6dc5aecbc40e4e3244646f">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac3080e0008d5cdd9f1f32b33e38aee95">fbgemm_gpu</a></li>
+<li>batched_dense_vec_jagged_2d_mul_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a399af8be70030a7aeaedbdf546efe61a">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0e4965515624f44fcd114ff1e5ff0998">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96db75aa5b2617976c2937ab051b737e">fbgemm_gpu</a></li>
+<li>batched_unary_embeddings_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9895cf76445e7258f2464bb037d2c54c">fbgemm_gpu</a></li>
+<li>BFloat16QuantizedToFloat_ref()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0f1d1afe56f116552e1ca9759e6e0fcc">fbgemm_gpu</a></li>
+<li>binary_search_range()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a13b4df4139f3c64ac4d8dbea51a7e7a0">fbgemm_gpu</a></li>
+<li>block_bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a270e4d8df103fa6c3e6750890608b566">fbgemm_gpu</a></li>
+<li>block_bucketize_sparse_features_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a293dc249ac4679d97747778a7fb02bd5">fbgemm_gpu</a></li>
+<li>bucketize_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a83c70249ce058969210bda8aedf671a4">fbgemm_gpu</a></li>
+<li>bucketize_sparse_features_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abb94f2bd00f8ee054a4a1d2417a093d1">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_c.html b/namespacemembers_func_c.html
new file mode 100644
index 000000000..06de7563c
--- /dev/null
+++ b/namespacemembers_func_c.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>calc_offsets_range_thread_block()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae0656dd690bcffdd8b470d894e25b2d8">fbgemm_gpu</a></li>
+<li>cat_reorder_batched_ad_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1ed236113fa360c41a2eb0507c3fc2c7">fbgemm_gpu</a></li>
+<li>cat_reorder_batched_ad_indices_cpu_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b5e65a3f532db97f093037c9dcb3902">fbgemm_gpu</a></li>
+<li>compute_frequency_sequence()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b41d7b032eb1abe61eee0bd903d8dfb">fbgemm_gpu</a></li>
+<li>compute_num_uint64s()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af861e4a8f7b669619744fe59ca2f73a3">fbgemm_gpu</a></li>
+<li>cp_async_fence()&#160;:&#160;<a class="el" href="namespacenbit.html#a9d3f5c31c0728bd8031522979f9fd236">nbit</a></li>
+<li>cp_async_wait()&#160;:&#160;<a class="el" href="namespacenbit.html#ab71806d51c0bb2fbc0b08fb3ed2b442e">nbit</a></li>
+<li>cp_async_wait&lt; 0 &gt;()&#160;:&#160;<a class="el" href="namespacenbit.html#a869b22b83f81fa2ed2302ceb80d9b9ca">nbit</a></li>
+<li>cp_async_zfill()&#160;:&#160;<a class="el" href="namespacenbit.html#ac46112b67b5de646034bc1d35d44c8fe">nbit</a></li>
+<li>cp_async_zfill_cg()&#160;:&#160;<a class="el" href="namespacenbit.html#a7f38bc64db06ad5e5ee1b4efa55c349d">nbit</a></li>
+<li>csr2csc()&#160;:&#160;<a class="el" href="namespaceinternal.html#adff2ce52cb6a5e84b57614a452aa77d5">internal</a></li>
+<li>csr2csc&lt; double &gt;()&#160;:&#160;<a class="el" href="namespaceinternal.html#ab8f896e4d2c97b1369a8e5fb7d9408b7">internal</a></li>
+<li>csr2csc&lt; float &gt;()&#160;:&#160;<a class="el" href="namespaceinternal.html#a3715c6c222855aa1b842c358fe2a6420">internal</a></li>
+<li>CUDA_KERNEL_LOOP()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a14c0f0b2b6107f2b17eb472d9be9fb03">fbgemm_gpu</a></li>
+<li>cutlass_get_smem_pointer()&#160;:&#160;<a class="el" href="namespacenbit.html#a64cf76bab7c5be6cb2b0c7d1b77443a5">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_d.html b/namespacemembers_func_d.html
new file mode 100644
index 000000000..385d821f3
--- /dev/null
+++ b/namespacemembers_func_d.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>db_shard()&#160;:&#160;<a class="el" href="namespacessd.html#ac0918c17a5ef4ae94a7d4068512744f9">ssd</a></li>
+<li>dense_to_jagged()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gae25fa8a028fc083f06e445e1d2ebb208">fbgemm_gpu</a></li>
+<li>dense_to_jagged_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa5a76157eb45b9bd4159a548e8a73ce6">fbgemm_gpu</a></li>
+<li>dequantize_load()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee340827dbc6c104a400c30f47f3ee3b">fbgemm_gpu</a></li>
+<li>dequantize_packed_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c388276a962d14b3070dc55202eaf66">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96be7f5b4c81d93bf024348e7b85e364">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2cf47d59251a0840fd370a95fa371681">fbgemm_gpu</a></li>
+<li>dequantize_permuted_int8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adec3504b0909c4380da3c0aac89055de">fbgemm_gpu</a></li>
+<li>direct_mapped_lru_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac827cf6cd0f063a6747deaff14e4902d">fbgemm_gpu</a></li>
+<li>direct_mapped_lxu_cache_lookup_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a03949dd527b81758e43a4b48800c3bc6">fbgemm_gpu</a></li>
+<li>div_round_up()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef">fbgemm_gpu</a>, <a class="el" href="namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db">nbit</a></li>
+<li>DivMod()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef6bada16cf81832eb1e594eb47875d8">fbgemm_gpu</a></li>
+<li>dummy_packed_accessor32()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a86a8cc18b54f6986ec4faeec0b223907">fbgemm_gpu</a></li>
+<li>dummy_packed_accessor64()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb6f64d8ceb0189b03aa6808b97e8b16">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_e.html b/namespacemembers_func_e.html
new file mode 100644
index 000000000..51cf8d20a
--- /dev/null
+++ b/namespacemembers_func_e.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>embedding_bag_rowwise_prune()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae586c9948dba8a67abf44ada58425fba">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa1807fa25793e61743b75d27db063cc">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af3e9e1ce0f6340f233ef6ae8934454cf">fbgemm_gpu</a></li>
+<li>embedding_inplace_update_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34">fbgemm_gpu</a></li>
+<li>exclusive_scan_ptrs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa8eb0fcd765dc4580084f6d098604e0d">fbgemm_gpu</a></li>
+<li>expand_into_jagged_permute_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a02fab30a12d9d6ee6e6ae68bc8041481">fbgemm_gpu</a></li>
+<li>expand_into_jagged_permute_cuda()&#160;:&#160;<a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_f.html b/namespacemembers_func_f.html
new file mode 100644
index 000000000..c5b57cbd9
--- /dev/null
+++ b/namespacemembers_func_f.html
@@ -0,0 +1,116 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>false()&#160;:&#160;<a class="el" href="namespacenbit.html#a92aa5aa305b64d0be3324318e749f727">nbit</a></li>
+<li>FBGEMM_GPU_ENUM_REGISTER_START()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0e41e402bfba1e346c6dcc610252e94b">fbgemm_gpu</a></li>
+<li>float16_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb046dd929c4c4190894087e0952b6ad">fbgemm_gpu</a></li>
+<li>float16_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aab696723995ed599860851113bfdae05">fbgemm_gpu</a></li>
+<li>float1_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a245cd4874d44db0533c14f1e5da13b0d">fbgemm_gpu</a></li>
+<li>float1_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ec9af370f9f9997a31175d653701b82">fbgemm_gpu</a></li>
+<li>float2_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a75186b0bdaba58d01566eec48d2f6602">fbgemm_gpu</a></li>
+<li>float2_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa0397156c968ae38da1e433bfd50d3a3">fbgemm_gpu</a></li>
+<li>float4_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7aaeb2b2ad68d85c51fb2b8697c70cc4">fbgemm_gpu</a></li>
+<li>float4_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adf07e886eabd113338425ed288c06a7b">fbgemm_gpu</a></li>
+<li>float8_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa292f064d1126228ac0d10457722616c">fbgemm_gpu</a></li>
+<li>float8_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abca50cf5035e82d7992586eac7b744cf">fbgemm_gpu</a></li>
+<li>float_or_half_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga06b7d2bf3fadaa9869555a64a6752ef7">fbgemm_gpu</a></li>
+<li>float_or_half_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae983a889f16302029fcc4e5fcd5ce34f">fbgemm_gpu</a></li>
+<li>float_to_FP8rowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad540dd7f8ad7601b3d9591114e4ef718">fbgemm_gpu</a></li>
+<li>float_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gacf598456fd7aced63b96e8a725f4c418">fbgemm_gpu</a></li>
+<li>float_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9330d767d66b257d1ffa28c67775b38e">fbgemm_gpu</a></li>
+<li>float_to_hfp8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9710845f2dffae8b40b17d49c169976b">fbgemm_gpu</a></li>
+<li>FloatToBFloat16Quantized_ref()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a46f430eb3d28bcd3fed6fbc61dec3bda">fbgemm_gpu</a></li>
+<li>FloatToFP8Quantized_ref()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad14f49d191c7960681206b7103d781c4">fbgemm_gpu</a></li>
+<li>FloatToFP8RowwiseQuantized_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5a525ef518134e136f23ab964d45dc23">fbgemm_gpu</a></li>
+<li>for()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af2287d510f303567f2d28d743aa716b6">fbgemm_gpu</a></li>
+<li>FP8QuantizedToFloat_ref()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga4c49e527f364bfa224ed34f4fe9f13e7">fbgemm_gpu</a></li>
+<li>FP8rowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga1d3b2f7c37e8755516ff8a4c504017e1">fbgemm_gpu</a></li>
+<li>FP8rowwise_to_float_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae7fdacc8f9e0ec9e1ede8102876ab537">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gab86a824fed15fab1c318359d069a5180">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_float_or_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gad219617d0aa308f97fad8dfc6af20213">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga9284d774f5d4087da98453e96e64d00a">fbgemm_gpu</a></li>
+<li>fused8bitrowwise_to_half_cpu_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a389ed2b83ea0f408fe19fbb46770c610">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_float_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga61c494baf4e410652ed897534d14aa29">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_float_or_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga5bd66d69876ef2493a6ebb4346c31bb9">fbgemm_gpu</a></li>
+<li>fusednbitrowwise_to_half_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#ga1c32bf52a02928dbc573b4ac67065788">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_g.html b/namespacemembers_func_g.html
new file mode 100644
index 000000000..7042da53b
--- /dev/null
+++ b/namespacemembers_func_g.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>generic_histogram_binning_calibration_by_feature_cpu()&#160;:&#160;<a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">fbgemm_gpu</a></li>
+<li>generic_histogram_binning_calibration_by_feature_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af9209d9d3ea127b5941dcab75bbfd39c">fbgemm_gpu</a></li>
+<li>get_group_index_select_cols_per_warp()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4296f0fdcb9a3dcfdd67549340e8f38c">fbgemm_gpu</a></li>
+<li>get_nvlink_matrix()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae554e4e9d8789449846323c52f840fe8">fbgemm_gpu</a></li>
+<li>getScalarType()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac7d6b4d86c0ce57c3af88ea03123fdb4">fbgemm_gpu</a></li>
+<li>getSparseType()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7dbc3a3bde83bfe7a18b720197f0f830">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a33cd874aab109dc15436869064c3d689">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a213539d8845a20efd90e93fed16f1090">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abda14dada6ae2b39b175ed52824dbfa5">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_impl_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d89670eae5b860788cb14175f01ce7e">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_unpack()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac4851777dc16c28c94a2cc9b58d3923c">fbgemm_gpu</a></li>
+<li>group_index_select_or_add_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a394db33cacde2480607d48fe227274ef">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_h.html b/namespacemembers_func_h.html
new file mode 100644
index 000000000..cea2ce692
--- /dev/null
+++ b/namespacemembers_func_h.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>half_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gaa9daf4f3dc64238a5de8f82bbae656cf">fbgemm_gpu</a></li>
+<li>half_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a545dc5567b0a08c31f65e2fc7ae21749">fbgemm_gpu</a></li>
+<li>hfma2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ff3d0d7b40d8f2909fa6b35d64d250d">fbgemm_gpu</a></li>
+<li>hfp8_to_float()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f35a2d3a2ede2e58e7986f8c2c757ec">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_by_feature_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a499764d7156d294219e3ae2629ae229f">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_by_feature_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac639ce2e71982d5d1da0a30c92858aa8">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_cpu()&#160;:&#160;<a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1b19059704ba1911efbedf4adcbb0ee3">fbgemm_gpu</a></li>
+<li>hmul()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab50e28187eb7fdf5b8cd74cd8150b025">fbgemm_gpu</a></li>
+<li>hmul_short2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a257181e3db25da8e4d1b4ef73976271d">fbgemm_gpu</a></li>
+<li>hostAsynchronousThreadPoolExecutor()&#160;:&#160;<a class="el" href="namespacessd.html#ac14b5cc833767dd1941b5c2de7153299">ssd</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_i.html b/namespacemembers_func_i.html
new file mode 100644
index 000000000..1f5f8b730
--- /dev/null
+++ b/namespacemembers_func_i.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>if()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a32dace4feb1fa305053fd440163ba422">fbgemm_gpu</a></li>
+<li>inclusive_sum_scan_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae86238f4ca864fb4ea41318ece747ab4">fbgemm_gpu</a></li>
+<li>index_add_with_unique_indices_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80e08c6c5c1ebf2b34c6490eee0e8415">fbgemm_gpu</a></li>
+<li>index_select_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a543ba161110516ef84a9fbeb83c7af5c">fbgemm_gpu</a></li>
+<li>index_select_dim0_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a170ff30798a3bcf42cc3f0669f938450">fbgemm_gpu</a></li>
+<li>index_select_scalar_cumsum_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa762379def70fcfe1f15ff2a347af4a9">fbgemm_gpu</a></li>
+<li>invert_permute_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa79c3b125ba955f02e8ee2e70b1bbd32">fbgemm_gpu</a></li>
+<li>is_aligned()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae24b9318a63a9532f426abc0b0e94819">fbgemm_gpu</a></li>
+<li>is_uvm_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_j.html b/namespacemembers_func_j.html
new file mode 100644
index 000000000..1432488f0
--- /dev/null
+++ b/namespacemembers_func_j.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_j" name="index_j"></a>- j -</h3><ul>
+<li>jagged_1d_to_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga93b5edf03f38d8eaf9a0f1ece0bc1af7">fbgemm_gpu</a></li>
+<li>jagged_1d_to_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afdde1bd5a99cc5bcdfaf27b4c42cad7b">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gaaa301b81a22a3d823ba5e65828093113">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70d2cdc82d96c9c4298b57133393a800">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_gpu_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7c104248a9abcdcdac6bdcac571930a4">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_gpu_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56c28427858ea272148bdbfb9f373191">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a67b19e389f869540bd35510d4e8e7908">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aed181c3885f392fec8c38cdf10266d68">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3eec1622180be9b7a31891d5e9f2ba71">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4961acd2615018dff4fdf1390158f0a4">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a022cdaaee01f619cf0cb7b29d80cbc65">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c32f4b4ccfdef9cf63d463cb235ec38">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a47e4d714a08316066470d979f97f1d81">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10611541bdce9c65bfe48a01474d1725">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56cac54ea3d7672c629010018ba59568">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab421ce372347f826b7e7ff9e35f26c93">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a319b3f5f33bec0aff79f0ee990483f3d">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_matches_opt()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adfb04060c9eecdadcf59b3c15d5bca08">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_opt_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aac40d60c62b0d176a962cdad964e34f6">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output_cuda()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a16d84a11c2e32cb0064721354fb190b7">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aff88b44d096bd7a039dca72a5855198c">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_jagged_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a124d128a82ffb0342ce597d0325060fb">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_jagged_output_opt_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aded7d8ce8ffbcce568c498fb32a7d071">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga5521ad46f5bab0d77c8bb036742f455d">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6de8f2f64f7d90ab1997df02470a9564">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abfbf6c239d283084ed1c68f18ea24af5">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa297ab58f55125d7eb7b040cc4c254b">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac30cb8e7e035c24bf4f6ac15bf1b623a">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaeeacda7f3587bfe9bf2ecf376dd635e">fbgemm_gpu</a></li>
+<li>jagged_hash_size_cumsum_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aabd8b530d0ac7e5cb96cf19c7eb517e9">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af80524a7d454f6db1c478808e8a659a6">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_v2_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8e1ed94256304ab16b948117d5315ee2">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab571c6d5519c86bddfe58835c8209a4c">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca95193cb0cc3db7030f18cb59c6cc33">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71a54a14d90862afc8e5fe03e0c9ed8f">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_v2_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acd9af0fd221ab3fc330ca9f278433a3f">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab1228b502a424869c5a7353f9fe52316">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae94c97196a7c392695b64f0db906ff4c">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b01fcfb83764115f38eeab21c28a6a3">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0793a1a7b328d1351b6036d0be6a9c3d">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2722fce931f20d923aba071236be4c87">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a33c7044a13254607610928c6825738b1">fbgemm_gpu</a></li>
+<li>jagged_jagged_elementwise_dense_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8fa5d329cfcc18c3304ba018919004ff">fbgemm_gpu</a></li>
+<li>jagged_slice()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab17aab73b431292434fd0d642a538960">fbgemm_gpu</a></li>
+<li>jagged_slice_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4e6521d00a6f81ad8ad7f7d38eef1aea">fbgemm_gpu</a></li>
+<li>jagged_slice_forward_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a284b652fdac146671fc324ac57d2ad5d">fbgemm_gpu</a></li>
+<li>jagged_softmax()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a069ed261b53e7051b85f3e572cad7f7e">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7ba518434a034920e1092bf6d73879fd">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a305d9969e73060e49580aab1456ceb35">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7101ddaed8357d824a9eeeaff67e5c4c">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad25e4e44afa7169c17e48d726ee0477">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a023a8d9db48d27efcd2e77ede6366f5d">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab117510dd56fd42f3d774d22633b107f">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac14e78d89697f34bcaa7c0a725c8a04a">fbgemm_gpu</a></li>
+<li>jagged_softmax_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a20e3d96daba045e321717b025f4124cc">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga6d19e2c055144e4fe59b06999be34670">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a861454c4383e6a0869a6c007fc498eed">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8663dcc9727a468507eb75a849ae5820">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_forward()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cuda.html#gaffad7e38f6faf5f8365784fbf82a26f5">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4fc6df6df430f9f9a20d7fe9d88dd009">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae45c299345273bf31be20e4893f58c28">fbgemm_gpu</a></li>
+<li>jagged_unique_indices_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a006273b56cd5a2efd001ad71d801a551">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_k.html b/namespacemembers_func_k.html
new file mode 100644
index 000000000..3ca157ba8
--- /dev/null
+++ b/namespacemembers_func_k.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>keyed_jagged_index_add_dim1_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d13c6946f45ae31d20aaecbd2316fec">fbgemm_gpu</a></li>
+<li>keyed_jagged_index_select_dim1_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0a518ef8f85868c32ac832576f8504d9">fbgemm_gpu</a></li>
+<li>keyed_jagged_index_select_dim_1_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a50a64d97045199097d3ff83edaf56a1a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_l.html b/namespacemembers_func_l.html
new file mode 100644
index 000000000..b98fe6047
--- /dev/null
+++ b/namespacemembers_func_l.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>lengths_range()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9599d315f833a6d562ee1d25d4ee5923">fbgemm_gpu</a></li>
+<li>lengths_range_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ace0a963a484e5501c50533122cdecc3c">fbgemm_gpu</a></li>
+<li>lengths_range_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a19280a435704ff4093b148460c37bc84">fbgemm_gpu</a></li>
+<li>lfu_cache_find_uncached_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9e8721a4003045038e10d3a4c8258c96">fbgemm_gpu</a></li>
+<li>lfu_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a45bb3081a2688f09448ffda6bc5d5f2e">fbgemm_gpu</a></li>
+<li>lfu_update_counts_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca510adc64caa635df004e9b419bbb1b">fbgemm_gpu</a></li>
+<li>linearize_cache_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6eaeebeb996c343db6d076fce7952133">fbgemm_gpu</a></li>
+<li>linearize_cache_indices_from_row_idx_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9c7ab59a89fd36f5c07b9c86bdc891c8">fbgemm_gpu</a></li>
+<li>load_qparams_from_row()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a003948b9ad61509936564075f2cead23">fbgemm_gpu</a></li>
+<li>lookup_batched_unary_embedding_function()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a74ffde7bbe921424bef364880c5d57ea">fbgemm_gpu</a></li>
+<li>lru_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d6ac45089730a607c2a46a265ac8b7b">fbgemm_gpu</a></li>
+<li>lxu_cache_lookup_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab26f1a83ce47d5510deed9bc9e9d6d9a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_m.html b/namespacemembers_func_m.html
new file mode 100644
index 000000000..4f902ab1a
--- /dev/null
+++ b/namespacemembers_func_m.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>make_zero_float2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25e94d75c07b4c2bc5427fe771f2d60d">fbgemm_gpu</a></li>
+<li>make_zero_float4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afca9b335bed360fc1ec3e239183a792f">fbgemm_gpu</a></li>
+<li>make_zero_float8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a66822cc23f92dbb8c18c596511b2a917">fbgemm_gpu</a></li>
+<li>make_zero_float_16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7dcc205dbf44fb2e80d62bf47eb6c4c4">fbgemm_gpu</a></li>
+<li>masked_select_jagged_1d()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0223abaee318471a5e42318a1b7056b6">fbgemm_gpu</a></li>
+<li>max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5f0a51933b0e3b1a96d8806d702ff82e">fbgemm_gpu</a></li>
+<li>merge_pooled_embeddings()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25ca3ce57c9101b878431d46cc049b50">fbgemm_gpu</a></li>
+<li>merge_pooled_embeddings_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad2aea0289bc3c5d135846ee32e0638c">fbgemm_gpu</a></li>
+<li>min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b62c5028106dcf10b450a8f178338ad">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_n.html b/namespacemembers_func_n.html
new file mode 100644
index 000000000..c1f8923ba
--- /dev/null
+++ b/namespacemembers_func_n.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>native_empty_like()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f18d44e708cafd185e02defd95fb774">fbgemm_gpu</a></li>
+<li>nearest_rounding_vector()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a94744dd15c8d4ffa9c5cf581e499f1ca">fbgemm_gpu</a></li>
+<li>new_host_mapped_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17">fbgemm_gpu</a></li>
+<li>new_managed_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">fbgemm_gpu</a></li>
+<li>new_managed_tensor_meta()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91">fbgemm_gpu</a></li>
+<li>new_unified_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f">fbgemm_gpu</a></li>
+<li>new_unified_tensor_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad6847fe2dc2433889aeb2dddf14f496">fbgemm_gpu</a></li>
+<li>new_vanilla_managed_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_o.html b/namespacemembers_func_o.html
new file mode 100644
index 000000000..6320f49aa
--- /dev/null
+++ b/namespacemembers_func_o.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>offset_tbe_input_combine_with_length_args()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab6871043c7881b5434de1e8eea491c80">fbgemm_gpu</a></li>
+<li>offsets_range_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5aff23a0a3b0bc872ba44a0045b6e350">fbgemm_gpu</a></li>
+<li>offsets_range_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3d88da2f7a769565c9ebdc070467eabe">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_p.html b/namespacemembers_func_p.html
new file mode 100644
index 000000000..27ba487e6
--- /dev/null
+++ b/namespacemembers_func_p.html
@@ -0,0 +1,131 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>pack_segments_autograd()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24fd2f4efa543ea716010c3fc1832587">fbgemm_gpu</a></li>
+<li>pack_segments_backward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a51f0921a8e934c6c4d0fca5ebb5d8338">fbgemm_gpu</a></li>
+<li>pack_segments_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaded8e25bef3a32580d71dc2ead25f0c">fbgemm_gpu</a></li>
+<li>pack_segments_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a01151883c1840f280f4f9c083677c8b5">fbgemm_gpu</a></li>
+<li>pack_segments_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a049c248a78797b27f5e053809c13b88e">fbgemm_gpu</a></li>
+<li>pack_segments_cuda_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ff1eed5a38a10b4da916f9ec154f225">fbgemm_gpu</a></li>
+<li>pack_segments_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a49cb5dd543cc63e932f458e1c79c0d00">fbgemm_gpu</a></li>
+<li>pack_segments_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4bec138cb5be2583288d026eb4185646">fbgemm_gpu</a></li>
+<li>padded_D()&#160;:&#160;<a class="el" href="namespacenbit.html#a45a36e2eb0376c3e37728ea312851cd7">nbit</a></li>
+<li>padded_row_size_in_bytes()&#160;:&#160;<a class="el" href="namespacenbit.html#a3ac5bf25115544f9067032bef644a215">nbit</a></li>
+<li>padding_fused_tbe_input_combine_cpu()&#160;:&#160;<a class="el" href="group__input-combine.html#ga9ab60fbe75053c2f31f7d3f16dfa476f">fbgemm_gpu</a></li>
+<li>padding_fused_tbe_input_combine_with_length_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af01b4023830652f0cc3e99c87f7b4526">fbgemm_gpu</a></li>
+<li>permute102_baddbmm_permute102_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab8d862f0ffee51a4d276f3989f0ab24b">fbgemm_gpu</a></li>
+<li>permute102_baddbmm_permute102_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c3f53164eb98c0b45b5aaef3e99a172">fbgemm_gpu</a></li>
+<li>permute_1D_sparse_data_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a22758d46158e49801e876ab269855736">fbgemm_gpu</a></li>
+<li>permute_2D_sparse_data_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a83da584464d49a223941e4b926b9676a">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeabdb24bef8b30a2b80b94a676b2b5fb">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a242a088c94da1f0b016087bef8460622">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_split_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0cdb20f76a1c62644ad644e4c7210ad">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_split_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a276c76fa5487668edb8477a844ca1704">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc5af8d2639bda183a7758a7fb4d4e9a">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aecf7e9c2b36bb349c98294b9abfcf7c1">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_split_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a286571e933b530189672faaa53ee20e6">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_split_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34e792da7d58bd96fc1c9d4c0b1b3a2a">fbgemm_gpu</a></li>
+<li>permute_embeddings_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b00efff9050b6bec363081afc5c3c2f">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga3fd0766d863a18ea5cce4bfdef6a0349">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#gac050c22198470709b89b4d5b160006b0">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#gad0d8a6f85fc81bc54e4c20e60fe6eb11">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4381e6e500aad1cf049aa509fc17b16b">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_split_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga62bb71eb3e7a980ce5efded317717189">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_split_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#gab5673b48b58896e4954cc8fc7c90c4d8">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa321302401045119810e93f42a361f1f">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_cpu_impl()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga39797562608b1226fc1632f815f7d8a2">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9b4a18abd526ab3e9c95f782d87afbbb">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca0e73083114d9eea99129e54b89fa23">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1183d2ce4456d290df04c32b215fc22e">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga21fd23f8f0de62159529356ebf7eb1f1">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_cpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9ce974f08ff3cb46289f39af5ea7fcec">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#ga342967f8cc4e25c7655d1987536cdc6b">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0d587655a374b11bb6b7febcabe0f403">fbgemm_gpu</a></li>
+<li>permute_sequence_embeddings_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c601604b9a15b45176ad42d4ca04d7d">fbgemm_gpu</a></li>
+<li>permute_sequence_embeddings_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a713a7245a4295a57007802212dca05ee">fbgemm_gpu</a></li>
+<li>permute_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7eec8c74f87d4204857061b761a17ede">fbgemm_gpu</a></li>
+<li>prefix_sum()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a82c664395e6340a5878c867fcf278bfc">fbgemm_gpu</a></li>
+<li>pruned_array_lookup_from_row_idx_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab57019812325465b62248776bb200885">fbgemm_gpu</a></li>
+<li>pruned_array_lookup_from_row_idx_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9">fbgemm_gpu</a></li>
+<li>pruned_hash_function()&#160;:&#160;<a class="el" href="namespacenbit.html#adf6ceb44691d377239880812db632ef7">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_q.html b/namespacemembers_func_q.html
new file mode 100644
index 000000000..9aa90954f
--- /dev/null
+++ b/namespacemembers_func_q.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>quantize_store()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af5bbc85156e52ab097bb0f770a2f63e7">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_r.html b/namespacemembers_func_r.html
new file mode 100644
index 000000000..b27efdfd6
--- /dev/null
+++ b/namespacemembers_func_r.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>recat_embedding_grad_output_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#ga09438223bb710af7f55fb6d25fc9d99f">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_batch_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#gad5cabc0ba0ee6dfd8a8de4e5825c62e9">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_cpu()&#160;:&#160;<a class="el" href="group__layout-transform-cpu.html#ga8edc2bee42577b7eeb76613b52d62311">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#gaf753887183c2603a01978463228a0343">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71657f0dff28b74e6cb71f2e70adba96">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_cpu_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abe2eef805cfc20b2d3ba69e3db973688">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10ae2e750abd260fb3dc2deb5e6a10a6">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a87472f171b785c3735bc88d72c8ddd9e">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee6a046b2315137787cced8d9942a248">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af398efd1fa34f78e6882f7691aa99fa9">fbgemm_gpu</a></li>
+<li>report_embedding_error()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17e57fc2dca2d6df09e26f3eec69464c">fbgemm_gpu</a></li>
+<li>rk_double()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af9dc4afe0a87b2326caf53649eee20eb">fbgemm_gpu</a></li>
+<li>rk_random()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3914fbd6fed76ebe8d05a1967ec5ccb9">fbgemm_gpu</a></li>
+<li>rk_seed()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad56b0e8dd76a57dcc1e268831fe58abb">fbgemm_gpu</a></li>
+<li>rk_zipf()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac4468c32ea6dc23cc2d7bded57a53119">fbgemm_gpu</a></li>
+<li>round_down()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afad69123afbd407f6cd94913da47680e">fbgemm_gpu</a></li>
+<li>round_up()&#160;:&#160;<a class="el" href="namespacenbit.html#a3f668dd605c2700542424899b9df54c6">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_s.html b/namespacemembers_func_s.html
new file mode 100644
index 000000000..caad1e57b
--- /dev/null
+++ b/namespacemembers_func_s.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>segment_sum_csr_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a678327561759694192908f1f111424f7">fbgemm_gpu</a></li>
+<li>segment_sum_csr_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8ae9711da44e5cd4a81f95a762b41180">fbgemm_gpu</a></li>
+<li>shfl_down_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a52eb62356a603284f18652bc195274ea">fbgemm_gpu</a></li>
+<li>shfl_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9b3fcf49a28b6524c8db8c7c523e1798">fbgemm_gpu</a></li>
+<li>shfl_xor()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17b07e8668ed9b29a8b37d21a829723d">fbgemm_gpu</a></li>
+<li>should_prune()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4ae09e478c1e9d6a414935fb6cf60f99">fbgemm_gpu</a></li>
+<li>splitmix64_stateless()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa5ada0472a8306dea17df0d7d1d42abc">fbgemm_gpu</a></li>
+<li>stacked_jagged_1d_to_dense_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6ac9f6d81bff1b8572a380dbe1af00fb">fbgemm_gpu</a></li>
+<li>stacked_jagged_1d_to_dense_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adf7f39b1a3dd7c2797fd11e740d6269f">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a442efbf57b46780a07ac4759ac1866ee">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab45e5e415a8929cbd0021eae37e1d881">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5de1d5c177df840f2fa7ab0cdda2aa02">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaac575e676d094aba1367e9eaf3489bc">fbgemm_gpu</a></li>
+<li>stochastic_rounding_init()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afe523b46c92c9009410f173e4ac434db">fbgemm_gpu</a></li>
+<li>stochastic_rounding_rand4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0b19e6751891f43372768335cc3c468">fbgemm_gpu</a></li>
+<li>stochastic_rounding_vector()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aec7be9515265c4db67d205f8a3a39822">fbgemm_gpu</a></li>
+<li>store_qparams_to_row()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8afc4c2510a6db3d420fc1025d3ac30b">fbgemm_gpu</a></li>
+<li>sum_reduce_to_one_device()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa7f73354e0c76fbc0584c3250dadc98e">fbgemm_gpu</a></li>
+<li>syncwarp()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab776b7b9076d17238d502b2746135ace">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_t.html b/namespacemembers_func_t.html
new file mode 100644
index 000000000..614096d85
--- /dev/null
+++ b/namespacemembers_func_t.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>tbe_input_combine_cpu()&#160;:&#160;<a class="el" href="group__input-combine.html#ga4f8f3f8b825c9d7639c1e45e8dc8b689">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56da764643d07d366219d69333e6f9de">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae818a54243bd2ea4c0841088f07ff327">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af7db32b23d955e760c7dfb4b29a13ca1">fbgemm_gpu</a></li>
+<li>thrust_find_qparams()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c54f589eee05a58cebd4cf7cf8b1086">fbgemm_gpu</a></li>
+<li>to_bfloat16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9d1e20705b5c1c16dd554c81b3766b93">fbgemm_gpu</a></li>
+<li>to_bfloat16_16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3f6b99cce95aa3d297e4b824e577d62d">fbgemm_gpu</a></li>
+<li>to_bfloat16_2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b8a7fb1619f338df717ef075fe513e4">fbgemm_gpu</a></li>
+<li>to_bfloat16_4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d0d7114d05a683328a782804ef2bef9">fbgemm_gpu</a></li>
+<li>to_bfloat16_8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a74f150a063fed3144f6d99cde2d46069">fbgemm_gpu</a></li>
+<li>to_half()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3e13c4ba1e371f3bcabf7f6f74ac103e">fbgemm_gpu</a></li>
+<li>to_half16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a776872b9c8f667b7d05aea83e7287d5d">fbgemm_gpu</a></li>
+<li>to_half2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaed7807ac8eef0fb786324d5935c4aca">fbgemm_gpu</a></li>
+<li>to_half4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee1f23de5e5847146cd821595d1978ae">fbgemm_gpu</a></li>
+<li>to_half8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a40088f5e88d0985b0c9b08808c40e1dd">fbgemm_gpu</a></li>
+<li>TORCH_LIBRARY_FRAGMENT()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">fbgemm_gpu</a></li>
+<li>TORCH_LIBRARY_IMPL()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a257a9d9e0a71b3a1299af6ef9c6c3a78">fbgemm_gpu</a></li>
+<li>trapz_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a45142e19fe831c9d085bb097b7d946b2">fbgemm_gpu</a></li>
+<li>true()&#160;:&#160;<a class="el" href="namespacenbit.html#a7d2686b58c584f889807ad3902056eac">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_u.html b/namespacemembers_func_u.html
new file mode 100644
index 000000000..f1054d0c9
--- /dev/null
+++ b/namespacemembers_func_u.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_u" name="index_u"></a>- u -</h3><ul>
+<li>unpack_segments_cuda_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0ca17769ee2a4593b447a78e3d3fe429">fbgemm_gpu</a></li>
+<li>unpadded_row_size_in_bytes()&#160;:&#160;<a class="el" href="namespacenbit.html#a7654c0df9e54aa58c35fe39c53130cbc">nbit</a></li>
+<li>uvm_cuda_mem_advise()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370">fbgemm_gpu</a></li>
+<li>uvm_cuda_mem_prefetch_async()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081">fbgemm_gpu</a></li>
+<li>uvm_mem_advice_dont_fork()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8">fbgemm_gpu</a></li>
+<li>uvm_storage()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6">fbgemm_gpu</a></li>
+<li>uvm_to_cpu()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48">fbgemm_gpu</a></li>
+<li>uvm_to_cpu_clone()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga161495e682d9eac3701dca87469930db">fbgemm_gpu</a></li>
+<li>uvm_to_device()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_v.html b/namespacemembers_func_v.html
new file mode 100644
index 000000000..4b2c42a75
--- /dev/null
+++ b/namespacemembers_func_v.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>vec4_acc()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab2a027e4907e39797b913faa6b4e7270">fbgemm_gpu</a></li>
+<li>vec4_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a635410cfe229b71efb90199b72107f86">fbgemm_gpu</a></li>
+<li>vec4_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae8a02a5464fb9156400157b45a947c58">fbgemm_gpu</a></li>
+<li>vec_copy_with_implicit_type_cast()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8c639f9912105390e4083332e01ecc57">fbgemm_gpu</a></li>
+<li>VEC_WIDTH()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a14fea42ceabd6ac042ad0d2fe5452762">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_w.html b/namespacemembers_func_w.html
new file mode 100644
index 000000000..27330bccc
--- /dev/null
+++ b/namespacemembers_func_w.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>warp_find_qparams()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a78a26de691da2f45a0e4ddaeda75009d">fbgemm_gpu</a></li>
+<li>warp_reduce_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acddba9c219634f979df1c8b943ac5e88">fbgemm_gpu</a></li>
+<li>warp_reduce_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af554571b877e978f495835af1920f4fb">fbgemm_gpu</a></li>
+<li>warpBitonicMergeLE16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9bd92b10074adc4fc58e4671a1d1d576">fbgemm_gpu</a></li>
+<li>warpReduceAllSum()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad47dc8c3cfd941ea7a92b1cb677abf8e">fbgemm_gpu</a></li>
+<li>while()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a44128eca539acfe55bdf792616e8b5b6">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_func_z.html b/namespacemembers_func_z.html
new file mode 100644
index 000000000..b6eb0c8d1
--- /dev/null
+++ b/namespacemembers_func_z.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace functions with links to the namespace documentation for each function:</div>
+
+<h3><a id="index_z" name="index_z"></a>- z -</h3><ul>
+<li>zipf_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a957e5dced6114b32a6d2e5e62011adbf">fbgemm_gpu</a></li>
+<li>zipf_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6991817ca1213e7cc0eba3bad689c03a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_g.html b/namespacemembers_g.html
new file mode 100644
index 000000000..112f72911
--- /dev/null
+++ b/namespacemembers_g.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>generic_histogram_binning_calibration_by_feature_cpu()&#160;:&#160;<a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">fbgemm_gpu</a></li>
+<li>generic_histogram_binning_calibration_by_feature_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af9209d9d3ea127b5941dcab75bbfd39c">fbgemm_gpu</a></li>
+<li>get_group_index_select_cols_per_warp()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4296f0fdcb9a3dcfdd67549340e8f38c">fbgemm_gpu</a></li>
+<li>get_nvlink_matrix()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae554e4e9d8789449846323c52f840fe8">fbgemm_gpu</a></li>
+<li>getScalarType()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac7d6b4d86c0ce57c3af88ea03123fdb4">fbgemm_gpu</a></li>
+<li>getSparseType()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7dbc3a3bde83bfe7a18b720197f0f830">fbgemm_gpu</a></li>
+<li>grad_output&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2a24c1ec3db68358edcac4561d38a0d1">fbgemm_gpu</a></li>
+<li>grad_sum&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae1519b6699f9dca1080e9230f3d95245">fbgemm_gpu</a></li>
+<li>grad_weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b80925f60fbc21517ec3a2e137b78bd">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_COLS_PER_WARP&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0d76fd54f347327376ed8ba28ff66bfc">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a33cd874aab109dc15436869064c3d689">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a213539d8845a20efd90e93fed16f1090">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abda14dada6ae2b39b175ed52824dbfa5">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_gpu_impl_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d89670eae5b860788cb14175f01ce7e">fbgemm_gpu</a></li>
+<li>group_index_select_dim0_unpack()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac4851777dc16c28c94a2cc9b58d3923c">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_LOG_COLS_PER_WARP&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a696ffb981f6c273f77aae0cf102b1f6b">fbgemm_gpu</a></li>
+<li>group_index_select_or_add_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a394db33cacde2480607d48fe227274ef">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_UNROLL_FACTOR&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a693bb0de52991f987fe81dc61c750403">fbgemm_gpu</a></li>
+<li>group_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0a2fbea18e37c564b3cada4172d96ff">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_h.html b/namespacemembers_h.html
new file mode 100644
index 000000000..35020138b
--- /dev/null
+++ b/namespacemembers_h.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_h" name="index_h"></a>- h -</h3><ul>
+<li>half_to_fused8bitrowwise_cpu()&#160;:&#160;<a class="el" href="group__quantize-data-cpu.html#gaa9daf4f3dc64238a5de8f82bbae656cf">fbgemm_gpu</a></li>
+<li>half_to_fusednbitrowwise_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a545dc5567b0a08c31f65e2fc7ae21749">fbgemm_gpu</a></li>
+<li>hfma2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ff3d0d7b40d8f2909fa6b35d64d250d">fbgemm_gpu</a></li>
+<li>hfp8_to_float()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1f35a2d3a2ede2e58e7986f8c2c757ec">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_by_feature_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a499764d7156d294219e3ae2629ae229f">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_by_feature_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac639ce2e71982d5d1da0a30c92858aa8">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_cpu()&#160;:&#160;<a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">fbgemm_gpu</a></li>
+<li>histogram_binning_calibration_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1b19059704ba1911efbedf4adcbb0ee3">fbgemm_gpu</a></li>
+<li>hmul()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab50e28187eb7fdf5b8cd74cd8150b025">fbgemm_gpu</a></li>
+<li>hmul_short2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a257181e3db25da8e4d1b4ef73976271d">fbgemm_gpu</a></li>
+<li>hostAsynchronousThreadPoolExecutor()&#160;:&#160;<a class="el" href="namespacessd.html#ac14b5cc833767dd1941b5c2de7153299">ssd</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_i.html b/namespacemembers_i.html
new file mode 100644
index 000000000..29a82d4d9
--- /dev/null
+++ b/namespacemembers_i.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9d7e9481c420588a334b2aedac0f5af4">fbgemm_gpu</a></li>
+<li>if()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad0904756703f278e8c03d0be1918211b">fbgemm_gpu</a></li>
+<li>inclusive_sum_scan_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae86238f4ca864fb4ea41318ece747ab4">fbgemm_gpu</a></li>
+<li>index_add_with_unique_indices_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80e08c6c5c1ebf2b34c6490eee0e8415">fbgemm_gpu</a></li>
+<li>index_select_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a543ba161110516ef84a9fbeb83c7af5c">fbgemm_gpu</a></li>
+<li>index_select_dim0_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a170ff30798a3bcf42cc3f0669f938450">fbgemm_gpu</a></li>
+<li>index_select_scalar_cumsum_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa762379def70fcfe1f15ff2a347af4a9">fbgemm_gpu</a></li>
+<li>indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu</a></li>
+<li>indices_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a192b4d5303123cf4b57b1491cd42e36e">fbgemm_gpu</a></li>
+<li>indices_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb7eb1c50758e407a638a81723961f56">fbgemm_gpu</a></li>
+<li>indices_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac7c7ecdd5162f325b65a6b5c5c6c40ca">fbgemm_gpu</a></li>
+<li>indices_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3d08a36103c24a910afe1dbfa89e3060">fbgemm_gpu</a></li>
+<li>indices_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af03fdab0a39bf13b8ec4de336253b8aa">fbgemm_gpu</a></li>
+<li>indices_ptrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7e26138f974174b1cd94f35321fef17d">fbgemm_gpu</a></li>
+<li>indices_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a43255cb54bbd791afb26a23af02acfec">fbgemm_gpu</a></li>
+<li>indices_to_lb&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af069d2baffbfbe0b8aae6aea56d31e86">fbgemm_gpu</a></li>
+<li>info&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa494944475a226c613cdd03931ba061d">fbgemm_gpu</a></li>
+<li>info_B_mask&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f">fbgemm_gpu</a></li>
+<li>info_B_num_bits&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">fbgemm_gpu</a></li>
+<li>input_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">fbgemm_gpu</a></li>
+<li>input_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5549affa3c112bf0c71b0e2323eb0c14">fbgemm_gpu</a></li>
+<li>int32_t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu</a></li>
+<li>invert_permute_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa79c3b125ba955f02e8ee2e70b1bbd32">fbgemm_gpu</a></li>
+<li>is_aligned()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae24b9318a63a9532f426abc0b0e94819">fbgemm_gpu</a></li>
+<li>is_long_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96187c00fa81aaf4d6404cc915a5d7b7">fbgemm_gpu</a></li>
+<li>is_long_mask&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ace5ac8a87afdca35747d5c9bd8e33e73">fbgemm_gpu</a></li>
+<li>IS_LONG_NUM_BITS&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab9c0e24618d9ec723a7fcc8653c0dd59">fbgemm_gpu</a></li>
+<li>is_uvm_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_j.html b/namespacemembers_j.html
new file mode 100644
index 000000000..0589f30cf
--- /dev/null
+++ b/namespacemembers_j.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_j" name="index_j"></a>- j -</h3><ul>
+<li>jagged_1d_to_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga93b5edf03f38d8eaf9a0f1ece0bc1af7">fbgemm_gpu</a></li>
+<li>jagged_1d_to_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afdde1bd5a99cc5bcdfaf27b4c42cad7b">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gaaa301b81a22a3d823ba5e65828093113">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a70d2cdc82d96c9c4298b57133393a800">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_gpu_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7c104248a9abcdcdac6bdcac571930a4">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_gpu_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56c28427858ea272148bdbfb9f373191">fbgemm_gpu</a></li>
+<li>jagged_2d_to_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a67b19e389f869540bd35510d4e8e7908">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aed181c3885f392fec8c38cdf10266d68">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3eec1622180be9b7a31891d5e9f2ba71">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4961acd2615018dff4fdf1390158f0a4">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a022cdaaee01f619cf0cb7b29d80cbc65">fbgemm_gpu</a></li>
+<li>jagged_dense_bmm_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c32f4b4ccfdef9cf63d463cb235ec38">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a47e4d714a08316066470d979f97f1d81">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10611541bdce9c65bfe48a01474d1725">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56cac54ea3d7672c629010018ba59568">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_add_jagged_output_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab421ce372347f826b7e7ff9e35f26c93">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a319b3f5f33bec0aff79f0ee990483f3d">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_matches_opt()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adfb04060c9eecdadcf59b3c15d5bca08">fbgemm_gpu</a></li>
+<li>jagged_dense_dense_elementwise_jagged_output_opt_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aac40d60c62b0d176a962cdad964e34f6">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output_cuda()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_jagged_output_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a16d84a11c2e32cb0064721354fb190b7">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_add_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aff88b44d096bd7a039dca72a5855198c">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_jagged_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a124d128a82ffb0342ce597d0325060fb">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_jagged_output_opt_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aded7d8ce8ffbcce568c498fb32a7d071">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga5521ad46f5bab0d77c8bb036742f455d">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6de8f2f64f7d90ab1997df02470a9564">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abfbf6c239d283084ed1c68f18ea24af5">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaa297ab58f55125d7eb7b040cc4c254b">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac30cb8e7e035c24bf4f6ac15bf1b623a">fbgemm_gpu</a></li>
+<li>jagged_dense_elementwise_mul_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaeeacda7f3587bfe9bf2ecf376dd635e">fbgemm_gpu</a></li>
+<li>jagged_hash_size_cumsum_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aabd8b530d0ac7e5cb96cf19c7eb517e9">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af80524a7d454f6db1c478808e8a659a6">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_forward_v2_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8e1ed94256304ab16b948117d5315ee2">fbgemm_gpu</a></li>
+<li>jagged_index_add_2d_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab571c6d5519c86bddfe58835c8209a4c">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca95193cb0cc3db7030f18cb59c6cc33">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71a54a14d90862afc8e5fe03e0c9ed8f">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_forward_v2_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acd9af0fd221ab3fc330ca9f278433a3f">fbgemm_gpu</a></li>
+<li>jagged_index_select_2d_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab1228b502a424869c5a7353f9fe52316">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae94c97196a7c392695b64f0db906ff4c">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b01fcfb83764115f38eeab21c28a6a3">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0793a1a7b328d1351b6036d0be6a9c3d">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2722fce931f20d923aba071236be4c87">fbgemm_gpu</a></li>
+<li>jagged_jagged_bmm_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a33c7044a13254607610928c6825738b1">fbgemm_gpu</a></li>
+<li>jagged_jagged_elementwise_dense_output_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8fa5d329cfcc18c3304ba018919004ff">fbgemm_gpu</a></li>
+<li>jagged_slice()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab17aab73b431292434fd0d642a538960">fbgemm_gpu</a></li>
+<li>jagged_slice_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4e6521d00a6f81ad8ad7f7d38eef1aea">fbgemm_gpu</a></li>
+<li>jagged_slice_forward_cpu_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a284b652fdac146671fc324ac57d2ad5d">fbgemm_gpu</a></li>
+<li>jagged_softmax()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a069ed261b53e7051b85f3e572cad7f7e">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7ba518434a034920e1092bf6d73879fd">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a305d9969e73060e49580aab1456ceb35">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7101ddaed8357d824a9eeeaff67e5c4c">fbgemm_gpu</a></li>
+<li>jagged_softmax_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad25e4e44afa7169c17e48d726ee0477">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a023a8d9db48d27efcd2e77ede6366f5d">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab117510dd56fd42f3d774d22633b107f">fbgemm_gpu</a></li>
+<li>jagged_softmax_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac14e78d89697f34bcaa7c0a725c8a04a">fbgemm_gpu</a></li>
+<li>jagged_softmax_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a20e3d96daba045e321717b025f4124cc">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cpu.html#ga6d19e2c055144e4fe59b06999be34670">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_backward()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a861454c4383e6a0869a6c007fc498eed">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_backward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8663dcc9727a468507eb75a849ae5820">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_forward()&#160;:&#160;<a class="el" href="group__jagged-tensor-ops-cuda.html#gaffad7e38f6faf5f8365784fbf82a26f5">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_forward_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4fc6df6df430f9f9a20d7fe9d88dd009">fbgemm_gpu</a></li>
+<li>jagged_to_padded_dense_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae45c299345273bf31be20e4893f58c28">fbgemm_gpu</a></li>
+<li>jagged_unique_indices_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a006273b56cd5a2efd001ad71d801a551">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_k.html b/namespacemembers_k.html
new file mode 100644
index 000000000..c6da64df3
--- /dev/null
+++ b/namespacemembers_k.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>kCacheLocationMissing&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a377d2c34d1f3becb19a91ea600e05321">fbgemm_gpu</a></li>
+<li>keyed_jagged_index_add_dim1_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d13c6946f45ae31d20aaecbd2316fec">fbgemm_gpu</a></li>
+<li>keyed_jagged_index_select_dim1_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0a518ef8f85868c32ac832576f8504d9">fbgemm_gpu</a></li>
+<li>keyed_jagged_index_select_dim_1_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a50a64d97045199097d3ff83edaf56a1a">fbgemm_gpu</a></li>
+<li>kRowInitBufferSize&#160;:&#160;<a class="el" href="namespacessd.html#a03257f8b2bc7207cc362638228aeb2f6">ssd</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_l.html b/namespacemembers_l.html
new file mode 100644
index 000000000..c0096ef79
--- /dev/null
+++ b/namespacemembers_l.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>L&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71a77dfc9561ca59031082dfd57dd5ca">fbgemm_gpu</a></li>
+<li>left&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8f5e19e19f12974c9713e920ec54331">fbgemm_gpu</a></li>
+<li>length_to_feature_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10c64e822d3634da34b9bf1f0c38d757">fbgemm_gpu</a></li>
+<li>lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">fbgemm_gpu</a></li>
+<li>lengths_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b15eac55dd0239102e264b41febb49f">fbgemm_gpu</a></li>
+<li>lengths_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80de4cfcf0b435f1edbf9ba9cb999695">fbgemm_gpu</a></li>
+<li>lengths_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8b8d41e5b0a7f0f67d18d46f561eef8">fbgemm_gpu</a></li>
+<li>lengths_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab245b3e7b831d8e003a353250359843d">fbgemm_gpu</a></li>
+<li>lengths_range()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9599d315f833a6d562ee1d25d4ee5923">fbgemm_gpu</a></li>
+<li>lengths_range_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ace0a963a484e5501c50533122cdecc3c">fbgemm_gpu</a></li>
+<li>lengths_range_out()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a19280a435704ff4093b148460c37bc84">fbgemm_gpu</a></li>
+<li>lengths_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a332f5a97c570870675755b52b91919d6">fbgemm_gpu</a></li>
+<li>lfu_cache_find_uncached_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9e8721a4003045038e10d3a4c8258c96">fbgemm_gpu</a></li>
+<li>lfu_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a45bb3081a2688f09448ffda6bc5d5f2e">fbgemm_gpu</a></li>
+<li>lfu_update_counts_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca510adc64caa635df004e9b419bbb1b">fbgemm_gpu</a></li>
+<li>linear_index&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a177d197b75db75ee70711f48a28e1524">fbgemm_gpu</a></li>
+<li>linearize_cache_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6eaeebeb996c343db6d076fce7952133">fbgemm_gpu</a></li>
+<li>linearize_cache_indices_from_row_idx_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9c7ab59a89fd36f5c07b9c86bdc891c8">fbgemm_gpu</a></li>
+<li>list_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a07403af74afe12cdace7e1ec4ff38e72">fbgemm_gpu</a></li>
+<li>load_qparams_from_row()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a003948b9ad61509936564075f2cead23">fbgemm_gpu</a></li>
+<li>logit_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a666f6d4fb27d254047edf38944a98e81">fbgemm_gpu</a></li>
+<li>lookup_batched_unary_embedding_function()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a74ffde7bbe921424bef364880c5d57ea">fbgemm_gpu</a></li>
+<li>lru_cache_populate_byte_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d6ac45089730a607c2a46a265ac8b7b">fbgemm_gpu</a></li>
+<li>lxu_cache_lookup_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab26f1a83ce47d5510deed9bc9e9d6d9a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_m.html b/namespacemembers_m.html
new file mode 100644
index 000000000..a8a1d65af
--- /dev/null
+++ b/namespacemembers_m.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>make_zero_float2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25e94d75c07b4c2bc5427fe771f2d60d">fbgemm_gpu</a></li>
+<li>make_zero_float4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afca9b335bed360fc1ec3e239183a792f">fbgemm_gpu</a></li>
+<li>make_zero_float8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a66822cc23f92dbb8c18c596511b2a917">fbgemm_gpu</a></li>
+<li>make_zero_float_16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7dcc205dbf44fb2e80d62bf47eb6c4c4">fbgemm_gpu</a></li>
+<li>masked_select_jagged_1d()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0223abaee318471a5e42318a1b7056b6">fbgemm_gpu</a></li>
+<li>max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5f0a51933b0e3b1a96d8806d702ff82e">fbgemm_gpu</a></li>
+<li>MAX_ELEMENTS_PER_THREAD&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af75fe947c4a976895a9fb2c7501439b1">fbgemm_gpu</a></li>
+<li>merge_pooled_embeddings()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a25ca3ce57c9101b878431d46cc049b50">fbgemm_gpu</a></li>
+<li>merge_pooled_embeddings_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad2aea0289bc3c5d135846ee32e0638c">fbgemm_gpu</a></li>
+<li>min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b62c5028106dcf10b450a8f178338ad">fbgemm_gpu</a></li>
+<li>my_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a726d1405842124631d2e9543e6abfd70">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_n.html b/namespacemembers_n.html
new file mode 100644
index 000000000..348363bdf
--- /dev/null
+++ b/namespacemembers_n.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>n&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4e34aefb3cc5403a07c020131077100a">fbgemm_gpu</a></li>
+<li>native_empty_like()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f18d44e708cafd185e02defd95fb774">fbgemm_gpu</a></li>
+<li>nearest_rounding_vector()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a94744dd15c8d4ffa9c5cf581e499f1ca">fbgemm_gpu</a></li>
+<li>new_host_mapped_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17">fbgemm_gpu</a></li>
+<li>new_indices_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a12ee89697c142bf6626fc9773b3784ce">fbgemm_gpu</a></li>
+<li>new_lengths_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2590465d158f637aa65cb705ceff155d">fbgemm_gpu</a></li>
+<li>new_managed_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3">fbgemm_gpu</a></li>
+<li>new_managed_tensor_meta()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91">fbgemm_gpu</a></li>
+<li>new_offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab36576a24b49bfce1e9b6ff66a37ebe1">fbgemm_gpu</a></li>
+<li>new_pos_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1543754093f5b3f003f28b6120d4508f">fbgemm_gpu</a></li>
+<li>new_unified_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f">fbgemm_gpu</a></li>
+<li>new_unified_tensor_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad6847fe2dc2433889aeb2dddf14f496">fbgemm_gpu</a></li>
+<li>new_vanilla_managed_tensor()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5">fbgemm_gpu</a></li>
+<li>new_weights_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2aaf9a58df0549a13d01ab53cd60ddff">fbgemm_gpu</a></li>
+<li>next_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac588c52c993fa6f169cb54d418ea584c">fbgemm_gpu</a></li>
+<li>NUM_ARGS&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a711d3a0cadc94f73da860c1ffd01e1b2">fbgemm_gpu</a></li>
+<li>num_bins&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aff8ee4d321b4a815868fe53b25b8fe6b">fbgemm_gpu</a></li>
+<li>num_calls&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34">fbgemm_gpu</a></li>
+<li>num_cols_group&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f734f38c3537666ae53e906e65c1a6e">fbgemm_gpu</a></li>
+<li>num_conflict_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6">fbgemm_gpu</a></li>
+<li>num_conflict_unique_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6">fbgemm_gpu</a></li>
+<li>num_lists&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a447e5ea8dc79992a05131d8803d2bf7e">fbgemm_gpu</a></li>
+<li>num_requested_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439">fbgemm_gpu</a></li>
+<li>num_segments&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017">fbgemm_gpu</a></li>
+<li>num_unique_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc">fbgemm_gpu</a></li>
+<li>num_unique_misses&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53">fbgemm_gpu</a></li>
+<li>num_work_rows&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb2ce03cab381b1393d4c7c355ef2286">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_o.html b/namespacemembers_o.html
new file mode 100644
index 000000000..802adcbd6
--- /dev/null
+++ b/namespacemembers_o.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>offset_tbe_input_combine_with_length_args()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab6871043c7881b5434de1e8eea491c80">fbgemm_gpu</a></li>
+<li>offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu</a></li>
+<li>offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a66f41f5ea495c26af7e2007fe0a28edc">fbgemm_gpu</a></li>
+<li>offsets_range_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5aff23a0a3b0bc872ba44a0045b6e350">fbgemm_gpu</a></li>
+<li>offsets_range_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3d88da2f7a769565c9ebdc070467eabe">fbgemm_gpu</a></li>
+<li>output&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">fbgemm_gpu</a></li>
+<li>output_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a783fcd132908afcc711d1a7fb2cb51a7">fbgemm_gpu</a></li>
+<li>output_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">fbgemm_gpu</a></li>
+<li>output_permute&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54">fbgemm_gpu</a></li>
+<li>output_ptrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a038ee34932113e6d3d38345920211f4c">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_p.html b/namespacemembers_p.html
new file mode 100644
index 000000000..7ff10f2c9
--- /dev/null
+++ b/namespacemembers_p.html
@@ -0,0 +1,149 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>P_indices_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125">fbgemm_gpu</a></li>
+<li>P_indices_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de">fbgemm_gpu</a></li>
+<li>P_indices_prts&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6">fbgemm_gpu</a></li>
+<li>P_lengths_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0">fbgemm_gpu</a></li>
+<li>P_lengths_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e">fbgemm_gpu</a></li>
+<li>P_lengths_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97">fbgemm_gpu</a></li>
+<li>P_per_sample_weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93">fbgemm_gpu</a></li>
+<li>pack_segments_autograd()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24fd2f4efa543ea716010c3fc1832587">fbgemm_gpu</a></li>
+<li>pack_segments_backward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a51f0921a8e934c6c4d0fca5ebb5d8338">fbgemm_gpu</a></li>
+<li>pack_segments_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaded8e25bef3a32580d71dc2ead25f0c">fbgemm_gpu</a></li>
+<li>pack_segments_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a01151883c1840f280f4f9c083677c8b5">fbgemm_gpu</a></li>
+<li>pack_segments_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a049c248a78797b27f5e053809c13b88e">fbgemm_gpu</a></li>
+<li>pack_segments_cuda_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3ff1eed5a38a10b4da916f9ec154f225">fbgemm_gpu</a></li>
+<li>pack_segments_forward_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a49cb5dd543cc63e932f458e1c79c0d00">fbgemm_gpu</a></li>
+<li>pack_segments_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4bec138cb5be2583288d026eb4185646">fbgemm_gpu</a></li>
+<li>PackedTensorAccessor32&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a64ee5a7e6df3a95f1d4bdd9f38707c96">fbgemm_gpu</a></li>
+<li>PackedTensorAccessor64&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a69b304f75455a9eb7144259c09770877">fbgemm_gpu</a></li>
+<li>padded_D()&#160;:&#160;<a class="el" href="namespacenbit.html#a45a36e2eb0376c3e37728ea312851cd7">nbit</a></li>
+<li>padded_row_size_in_bytes()&#160;:&#160;<a class="el" href="namespacenbit.html#a3ac5bf25115544f9067032bef644a215">nbit</a></li>
+<li>padding_fused_tbe_input_combine_cpu()&#160;:&#160;<a class="el" href="group__input-combine.html#ga9ab60fbe75053c2f31f7d3f16dfa476f">fbgemm_gpu</a></li>
+<li>padding_fused_tbe_input_combine_with_length_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af01b4023830652f0cc3e99c87f7b4526">fbgemm_gpu</a></li>
+<li>per_sample_weights_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34e6956031d1fc5c0f8df5fb432bcfbd">fbgemm_gpu</a></li>
+<li>permute&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">fbgemm_gpu</a></li>
+<li>permute102_baddbmm_permute102_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab8d862f0ffee51a4d276f3989f0ab24b">fbgemm_gpu</a></li>
+<li>permute102_baddbmm_permute102_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0c3f53164eb98c0b45b5aaef3e99a172">fbgemm_gpu</a></li>
+<li>permute_1D_sparse_data_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a22758d46158e49801e876ab269855736">fbgemm_gpu</a></li>
+<li>permute_2D_sparse_data_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a83da584464d49a223941e4b926b9676a">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeabdb24bef8b30a2b80b94a676b2b5fb">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a242a088c94da1f0b016087bef8460622">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_split_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0cdb20f76a1c62644ad644e4c7210ad">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_auto_grad_split_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a276c76fa5487668edb8477a844ca1704">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc5af8d2639bda183a7758a7fb4d4e9a">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aecf7e9c2b36bb349c98294b9abfcf7c1">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_split_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a286571e933b530189672faaa53ee20e6">fbgemm_gpu</a></li>
+<li>permute_duplicate_pooled_embs_split_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34e792da7d58bd96fc1c9d4c0b1b3a2a">fbgemm_gpu</a></li>
+<li>permute_embeddings_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b00efff9050b6bec363081afc5c3c2f">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga3fd0766d863a18ea5cce4bfdef6a0349">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#gac050c22198470709b89b4d5b160006b0">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#gad0d8a6f85fc81bc54e4c20e60fe6eb11">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4381e6e500aad1cf049aa509fc17b16b">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_split_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga62bb71eb3e7a980ce5efded317717189">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_auto_grad_split_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#gab5673b48b58896e4954cc8fc7c90c4d8">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa321302401045119810e93f42a361f1f">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_cpu_impl()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga39797562608b1226fc1632f815f7d8a2">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9b4a18abd526ab3e9c95f782d87afbbb">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aca0e73083114d9eea99129e54b89fa23">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_meta()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1183d2ce4456d290df04c32b215fc22e">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_cpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-cpu.html#ga21fd23f8f0de62159529356ebf7eb1f1">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_cpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9ce974f08ff3cb46289f39af5ea7fcec">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_gpu()&#160;:&#160;<a class="el" href="group__permute-pooled-embs-gpu.html#ga342967f8cc4e25c7655d1987536cdc6b">fbgemm_gpu</a></li>
+<li>permute_pooled_embs_split_gpu_impl()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0d587655a374b11bb6b7febcabe0f403">fbgemm_gpu</a></li>
+<li>permute_sequence_embeddings_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c601604b9a15b45176ad42d4ca04d7d">fbgemm_gpu</a></li>
+<li>permute_sequence_embeddings_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a713a7245a4295a57007802212dca05ee">fbgemm_gpu</a></li>
+<li>permute_sparse_features_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7eec8c74f87d4204857061b761a17ede">fbgemm_gpu</a></li>
+<li>permuted_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab448dead4746a419f7d4a69a32c788ea">fbgemm_gpu</a></li>
+<li>permuted_lengths_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a77fcd99017c7bb6155d154951f8f45bc">fbgemm_gpu</a></li>
+<li>permuted_weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3035a61c641ca380da28b01558f5fdaa">fbgemm_gpu</a></li>
+<li>PlacementType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194">fbgemm_gpu</a></li>
+<li>PoolingMode&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5d">fbgemm_gpu</a></li>
+<li>pre_sigmoid&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a63c15a2ca68e0a1638710ac9d5335e6a">fbgemm_gpu</a></li>
+<li>prefix_sum()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a82c664395e6340a5878c867fcf278bfc">fbgemm_gpu</a></li>
+<li>PrimitiveType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60">fbgemm_gpu</a></li>
+<li>pruned_array_lookup_from_row_idx_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab57019812325465b62248776bb200885">fbgemm_gpu</a></li>
+<li>pruned_array_lookup_from_row_idx_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9">fbgemm_gpu</a></li>
+<li>pruned_hash_function()&#160;:&#160;<a class="el" href="namespacenbit.html#adf6ceb44691d377239880812db632ef7">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_q.html b/namespacemembers_q.html
new file mode 100644
index 000000000..305e8672b
--- /dev/null
+++ b/namespacemembers_q.html
@@ -0,0 +1,85 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_q" name="index_q"></a>- q -</h3><ul>
+<li>quantize_store()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af5bbc85156e52ab097bb0f770a2f63e7">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_r.html b/namespacemembers_r.html
new file mode 100644
index 000000000..f4b04aa4e
--- /dev/null
+++ b/namespacemembers_r.html
@@ -0,0 +1,105 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>range_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef9d86cd563a5416a6c556a5902c966d">fbgemm_gpu</a></li>
+<li>range_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad7972a8cfd2b4fbe5e0b5b29f12beaa7">fbgemm_gpu</a></li>
+<li>recalibrate_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b36a55458d7d4b9024fd515605c29ee">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#ga09438223bb710af7f55fb6d25fc9d99f">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_batch_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#gad5cabc0ba0ee6dfd8a8de4e5825c62e9">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_cpu()&#160;:&#160;<a class="el" href="group__layout-transform-cpu.html#ga8edc2bee42577b7eeb76613b52d62311">fbgemm_gpu</a></li>
+<li>recat_embedding_grad_output_mixed_D_cuda()&#160;:&#160;<a class="el" href="group__layout-transform-cuda.html#gaf753887183c2603a01978463228a0343">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71657f0dff28b74e6cb71f2e70adba96">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_cpu_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abe2eef805cfc20b2d3ba69e3db973688">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_indices_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10ae2e750abd260fb3dc2deb5e6a10a6">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a87472f171b785c3735bc88d72c8ddd9e">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee6a046b2315137787cced8d9942a248">fbgemm_gpu</a></li>
+<li>reorder_batched_ad_lengths_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af398efd1fa34f78e6882f7691aa99fa9">fbgemm_gpu</a></li>
+<li>report_embedding_error()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17e57fc2dca2d6df09e26f3eec69464c">fbgemm_gpu</a></li>
+<li>right&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f54f8b71f0d765e2b7dbd9a8b9774ff">fbgemm_gpu</a></li>
+<li>rk_double()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af9dc4afe0a87b2326caf53649eee20eb">fbgemm_gpu</a></li>
+<li>rk_random()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3914fbd6fed76ebe8d05a1967ec5ccb9">fbgemm_gpu</a></li>
+<li>rk_seed()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad56b0e8dd76a57dcc1e268831fe58abb">fbgemm_gpu</a></li>
+<li>rk_zipf()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac4468c32ea6dc23cc2d7bded57a53119">fbgemm_gpu</a></li>
+<li>round_down()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afad69123afbd407f6cd94913da47680e">fbgemm_gpu</a></li>
+<li>round_up()&#160;:&#160;<a class="el" href="namespacenbit.html#a3f668dd605c2700542424899b9df54c6">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_s.html b/namespacemembers_s.html
new file mode 100644
index 000000000..a8458d675
--- /dev/null
+++ b/namespacemembers_s.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>seg_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4311f4976e51399caed297d2cad3bfd3">fbgemm_gpu</a></li>
+<li>seg_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adc735e446799084e3d27da58cf5807c3">fbgemm_gpu</a></li>
+<li>segment_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a00965ae9e18f8292077b81d9040515c0">fbgemm_gpu</a></li>
+<li>segment_offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a091bd2259a1e959d0052ad2fa399065f">fbgemm_gpu</a></li>
+<li>segment_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa58de74ea57ed45322b04e829cb75d9b">fbgemm_gpu</a></li>
+<li>segment_sum_csr_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a678327561759694192908f1f111424f7">fbgemm_gpu</a></li>
+<li>segment_sum_csr_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8ae9711da44e5cd4a81f95a762b41180">fbgemm_gpu</a></li>
+<li>segment_value_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac49066d09ce07fcb75c1f913da32b626">fbgemm_gpu</a></li>
+<li>shfl_down_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a52eb62356a603284f18652bc195274ea">fbgemm_gpu</a></li>
+<li>shfl_sync()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9b3fcf49a28b6524c8db8c7c523e1798">fbgemm_gpu</a></li>
+<li>shfl_xor()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17b07e8668ed9b29a8b37d21a829723d">fbgemm_gpu</a></li>
+<li>should_prune()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4ae09e478c1e9d6a414935fb6cf60f99">fbgemm_gpu</a></li>
+<li>SL&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4478543eef2b1a98a328e4c634b5f6ad">fbgemm_gpu</a></li>
+<li>sorted_infos&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a89d9dff100cfa1f022fcfbf61e2500cc">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_cumulative_run_lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae6972dc3932ca715765452e39f97f21b">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_num_runs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9531de3506c1c1753051c949613ee1b5">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_run&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a30d761b81b0e05f95a7a118a17d6c4a2">fbgemm_gpu</a></li>
+<li>SparseType&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e">fbgemm_gpu</a></li>
+<li>splitmix64_stateless()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa5ada0472a8306dea17df0d7d1d42abc">fbgemm_gpu</a></li>
+<li>src_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a119724f55ff744b85a20a870b5da4152">fbgemm_gpu</a></li>
+<li>stacked_jagged_1d_to_dense_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6ac9f6d81bff1b8572a380dbe1af00fb">fbgemm_gpu</a></li>
+<li>stacked_jagged_1d_to_dense_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adf7f39b1a3dd7c2797fd11e740d6269f">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_backward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a442efbf57b46780a07ac4759ac1866ee">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab45e5e415a8929cbd0021eae37e1d881">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_forward_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5de1d5c177df840f2fa7ab0cdda2aa02">fbgemm_gpu</a></li>
+<li>stacked_jagged_2d_to_dense_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaac575e676d094aba1367e9eaf3489bc">fbgemm_gpu</a></li>
+<li>start_input&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abb9cbb13307ba09bfd2a13ca7abbb19b">fbgemm_gpu</a></li>
+<li>step&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17e8d602b1d99905e55e6b875dc306b5">fbgemm_gpu</a></li>
+<li>stochastic_rounding_init()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afe523b46c92c9009410f173e4ac434db">fbgemm_gpu</a></li>
+<li>stochastic_rounding_rand4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0b19e6751891f43372768335cc3c468">fbgemm_gpu</a></li>
+<li>stochastic_rounding_vector()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d41dbbfc3106c8fd5ff37cefbffbc38">fbgemm_gpu</a></li>
+<li>store_qparams_to_row()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8afc4c2510a6db3d420fc1025d3ac30b">fbgemm_gpu</a></li>
+<li>stride&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a85f38ec0d4f8474b6d4ccad168974cf9">fbgemm_gpu</a></li>
+<li>sum&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adb83758639b252f212d790847ca2f6b6">fbgemm_gpu</a></li>
+<li>sum_E&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aba761028ac72c20c7defaef09de61d95">fbgemm_gpu</a></li>
+<li>sum_reduce_to_one_device()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa7f73354e0c76fbc0584c3250dadc98e">fbgemm_gpu</a></li>
+<li>syncwarp()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab776b7b9076d17238d502b2746135ace">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_t.html b/namespacemembers_t.html
new file mode 100644
index 000000000..592cf5baa
--- /dev/null
+++ b/namespacemembers_t.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>T&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu</a></li>
+<li>t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80cbea4714c980d14626fd87c9287a4">fbgemm_gpu</a></li>
+<li>table_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f">fbgemm_gpu</a></li>
+<li>table_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a114a2ddecfbdbb209bc791977fcb1c0e">fbgemm_gpu</a></li>
+<li>tbe_input_combine_cpu()&#160;:&#160;<a class="el" href="group__input-combine.html#ga4f8f3f8b825c9d7639c1e45e8dc8b689">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_cpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a56da764643d07d366219d69333e6f9de">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae818a54243bd2ea4c0841088f07ff327">fbgemm_gpu</a></li>
+<li>tbe_input_combine_with_length_gpu()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af7db32b23d955e760c7dfb4b29a13ca1">fbgemm_gpu</a></li>
+<li>temp_storage&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad0fce99009259dbc5e5c0527eb5b3f64">fbgemm_gpu</a></li>
+<li>Tensor&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">fbgemm_gpu</a></li>
+<li>thrust_find_qparams()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6c54f589eee05a58cebd4cf7cf8b1086">fbgemm_gpu</a></li>
+<li>to_bfloat16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9d1e20705b5c1c16dd554c81b3766b93">fbgemm_gpu</a></li>
+<li>to_bfloat16_16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3f6b99cce95aa3d297e4b824e577d62d">fbgemm_gpu</a></li>
+<li>to_bfloat16_2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b8a7fb1619f338df717ef075fe513e4">fbgemm_gpu</a></li>
+<li>to_bfloat16_4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d0d7114d05a683328a782804ef2bef9">fbgemm_gpu</a></li>
+<li>to_bfloat16_8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a74f150a063fed3144f6d99cde2d46069">fbgemm_gpu</a></li>
+<li>to_half()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3e13c4ba1e371f3bcabf7f6f74ac103e">fbgemm_gpu</a></li>
+<li>to_half16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a776872b9c8f667b7d05aea83e7287d5d">fbgemm_gpu</a></li>
+<li>to_half2()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aaed7807ac8eef0fb786324d5935c4aca">fbgemm_gpu</a></li>
+<li>to_half4()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aee1f23de5e5847146cd821595d1978ae">fbgemm_gpu</a></li>
+<li>to_half8()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a40088f5e88d0985b0c9b08808c40e1dd">fbgemm_gpu</a></li>
+<li>TORCH_LIBRARY_FRAGMENT()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc">fbgemm_gpu</a></li>
+<li>TORCH_LIBRARY_IMPL()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a257a9d9e0a71b3a1299af6ef9c6c3a78">fbgemm_gpu</a></li>
+<li>trapz_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a45142e19fe831c9d085bb097b7d946b2">fbgemm_gpu</a></li>
+<li>true()&#160;:&#160;<a class="el" href="namespacenbit.html#ac4473fe74a275df878cef6094b97142f">nbit</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_type.html b/namespacemembers_type.html
new file mode 100644
index 000000000..058500a27
--- /dev/null
+++ b/namespacemembers_type.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace typedefs with links to the namespace documentation for each typedef:</div><ul>
+<li>enum_item&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef71de4120929d2410f5d766948f8eaf">fbgemm_gpu</a></li>
+<li>enum_items&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5fdc84ce2202ea07eb2e865847bd8f34">fbgemm_gpu</a></li>
+<li>enum_result&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adbdc3251cbd2e995dfa31ffdf2c2df8e">fbgemm_gpu</a></li>
+<li>fint32&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4783bbd9753251a335f9f8fa2dd97c8c">fbgemm_gpu</a></li>
+<li>PackedTensorAccessor32&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a64ee5a7e6df3a95f1d4bdd9f38707c96">fbgemm_gpu</a></li>
+<li>PackedTensorAccessor64&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a69b304f75455a9eb7144259c09770877">fbgemm_gpu</a></li>
+<li>Tensor&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">fbgemm_gpu</a></li>
+<li>uoffset_t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae8406b85b19117866badffef9481f3e2">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_u.html b/namespacemembers_u.html
new file mode 100644
index 000000000..1b1f7e75d
--- /dev/null
+++ b/namespacemembers_u.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_u" name="index_u"></a>- u -</h3><ul>
+<li>uint8_t&#160;:&#160;<a class="el" href="namespacenbit.html#a1360e7840ee58417b26bf9445f94c59d">nbit</a></li>
+<li>unbucketize_permute_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa403c596f919b42af361fc6554cce9e0">fbgemm_gpu</a></li>
+<li>uncalibrated&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7b13aa0c4501d0593484a73afe8786c2">fbgemm_gpu</a></li>
+<li>unpack_segments_cuda_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0ca17769ee2a4593b447a78e3d3fe429">fbgemm_gpu</a></li>
+<li>unpadded_row_size_in_bytes()&#160;:&#160;<a class="el" href="namespacenbit.html#a7654c0df9e54aa58c35fe39c53130cbc">nbit</a></li>
+<li>uoffset_t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae8406b85b19117866badffef9481f3e2">fbgemm_gpu</a></li>
+<li>uvm_cache_stats_index&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aa">fbgemm_gpu</a></li>
+<li>uvm_cuda_mem_advise()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370">fbgemm_gpu</a></li>
+<li>uvm_cuda_mem_prefetch_async()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081">fbgemm_gpu</a></li>
+<li>uvm_mem_advice_dont_fork()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8">fbgemm_gpu</a></li>
+<li>uvm_storage()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6">fbgemm_gpu</a></li>
+<li>uvm_to_cpu()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48">fbgemm_gpu</a></li>
+<li>uvm_to_cpu_clone()&#160;:&#160;<a class="el" href="group__cumem-utils.html#ga161495e682d9eac3701dca87469930db">fbgemm_gpu</a></li>
+<li>uvm_to_device()&#160;:&#160;<a class="el" href="group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_v.html b/namespacemembers_v.html
new file mode 100644
index 000000000..74c750def
--- /dev/null
+++ b/namespacemembers_v.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>values_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af7acf47e01ed08917ef22330aaa8f95d">fbgemm_gpu</a></li>
+<li>vec4_acc()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab2a027e4907e39797b913faa6b4e7270">fbgemm_gpu</a></li>
+<li>vec4_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a635410cfe229b71efb90199b72107f86">fbgemm_gpu</a></li>
+<li>vec4_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae8a02a5464fb9156400157b45a947c58">fbgemm_gpu</a></li>
+<li>vec_copy_with_implicit_type_cast()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8c639f9912105390e4083332e01ecc57">fbgemm_gpu</a></li>
+<li>vec_copy_with_implicit_type_cast&lt; int64_t, int32_t, VEC_WIDTH &gt;&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b717a692f34f1bc7afb9eec6d5f9a2e">fbgemm_gpu</a></li>
+<li>VEC_WIDTH()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a14fea42ceabd6ac042ad0d2fe5452762">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_vars.html b/namespacemembers_vars.html
new file mode 100644
index 000000000..a3fd7f658
--- /dev/null
+++ b/namespacemembers_vars.html
@@ -0,0 +1,286 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace variables with links to the namespace documentation for each variable:</div>
+
+<h3><a id="index_b" name="index_b"></a>- b -</h3><ul>
+<li>B&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab">fbgemm_gpu</a></li>
+<li>b&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab540864a8f4d5cfb95d168df6ff1ac51">fbgemm_gpu</a></li>
+<li>batch_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#add6df347839b36aa580f997fddaebf86">fbgemm_gpu</a></li>
+<li>batch_size_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afba1f0bf46d421e1e2834949792290e0">fbgemm_gpu</a></li>
+<li>batch_size_per_feature&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34cfcac7aff478aac7e03c48a25b0447">fbgemm_gpu</a></li>
+<li>bin_boundaries&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970">fbgemm_gpu</a></li>
+<li>bin_ctr_in_use_after&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">fbgemm_gpu</a></li>
+<li>bin_ctr_weight_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">fbgemm_gpu</a></li>
+<li>bin_ids_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a24c7d1d72baa0efece963a4ed4db9c17">fbgemm_gpu</a></li>
+<li>bin_num_examples_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad09ae93c92bfe0fe061460cfe4acd611">fbgemm_gpu</a></li>
+<li>bin_num_positives_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6cf3109a8de0f8ef7a818474a2fec845">fbgemm_gpu</a></li>
+<li>block_bucketize_pos_concat&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acc943f4a5b9448babdf4b36ff9095dff">fbgemm_gpu</a></li>
+<li>block_bucketize_pos_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7caa87d119b6ee26ae8fe2b66671215c">fbgemm_gpu</a></li>
+<li>block_sizes_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab2cdb48bca4ebe95f2cdeedea09f549f">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_c" name="index_c"></a>- c -</h3><ul>
+<li>calibrated_prediction_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5a04eca282d6278fd065294a91065404">fbgemm_gpu</a></li>
+<li>combined_lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a176c2b8769558803ba0614bc04b7995f">fbgemm_gpu</a></li>
+<li>combined_weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a426e281c9c2dd29c0abe399f17ba8d6f">fbgemm_gpu</a></li>
+<li>csr_seg_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0523b0079ced4e8a092ec1f3e5b5a193">fbgemm_gpu</a></li>
+<li>curr_bin_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80c593013706e17927a0cedd1d6dbb0">fbgemm_gpu</a></li>
+<li>curr_bin_num_examples&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#afce91df3fd14c65d1d464b891004b1da">fbgemm_gpu</a></li>
+<li>curr_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5774000010ec731b390787b3b5f72868">fbgemm_gpu</a></li>
+<li>curr_segment_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a216663a22f5311b9ecf7c9bc64ee047d">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_d" name="index_d"></a>- d -</h3><ul>
+<li>dense_segment_value_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f93c0df9186a239cfd59505a464fc36">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_e" name="index_e"></a>- e -</h3><ul>
+<li>else&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0544c3fe466e421738dae463968b70ba">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_f" name="index_f"></a>- f -</h3><ul>
+<li>fd_num_warps_per_list&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a8d2f3cd432a3bf2de49086fb33ef71cb">fbgemm_gpu</a></li>
+<li>float&#160;:&#160;<a class="el" href="namespacenbit.html#ae44f656615f2dcbbfec55dc3f365b9e3">nbit</a></li>
+</ul>
+
+
+<h3><a id="index_g" name="index_g"></a>- g -</h3><ul>
+<li>grad_output&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2a24c1ec3db68358edcac4561d38a0d1">fbgemm_gpu</a></li>
+<li>grad_sum&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae1519b6699f9dca1080e9230f3d95245">fbgemm_gpu</a></li>
+<li>grad_weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5b80925f60fbc21517ec3a2e137b78bd">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_COLS_PER_WARP&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a0d76fd54f347327376ed8ba28ff66bfc">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_LOG_COLS_PER_WARP&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a696ffb981f6c273f77aae0cf102b1f6b">fbgemm_gpu</a></li>
+<li>GROUP_INDEX_SELECT_UNROLL_FACTOR&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a693bb0de52991f987fe81dc61c750403">fbgemm_gpu</a></li>
+<li>group_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af0a2fbea18e37c564b3cada4172d96ff">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_i" name="index_i"></a>- i -</h3><ul>
+<li>idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9d7e9481c420588a334b2aedac0f5af4">fbgemm_gpu</a></li>
+<li>indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu</a></li>
+<li>indices_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a192b4d5303123cf4b57b1491cd42e36e">fbgemm_gpu</a></li>
+<li>indices_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acb7eb1c50758e407a638a81723961f56">fbgemm_gpu</a></li>
+<li>indices_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac7c7ecdd5162f325b65a6b5c5c6c40ca">fbgemm_gpu</a></li>
+<li>indices_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3d08a36103c24a910afe1dbfa89e3060">fbgemm_gpu</a></li>
+<li>indices_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af03fdab0a39bf13b8ec4de336253b8aa">fbgemm_gpu</a></li>
+<li>indices_ptrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7e26138f974174b1cd94f35321fef17d">fbgemm_gpu</a></li>
+<li>indices_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a43255cb54bbd791afb26a23af02acfec">fbgemm_gpu</a></li>
+<li>indices_to_lb&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af069d2baffbfbe0b8aae6aea56d31e86">fbgemm_gpu</a></li>
+<li>info&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa494944475a226c613cdd03931ba061d">fbgemm_gpu</a></li>
+<li>info_B_mask&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f">fbgemm_gpu</a></li>
+<li>info_B_num_bits&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">fbgemm_gpu</a></li>
+<li>input_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">fbgemm_gpu</a></li>
+<li>input_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a5549affa3c112bf0c71b0e2323eb0c14">fbgemm_gpu</a></li>
+<li>int32_t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">fbgemm_gpu</a></li>
+<li>is_long_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a96187c00fa81aaf4d6404cc915a5d7b7">fbgemm_gpu</a></li>
+<li>is_long_mask&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ace5ac8a87afdca35747d5c9bd8e33e73">fbgemm_gpu</a></li>
+<li>IS_LONG_NUM_BITS&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab9c0e24618d9ec723a7fcc8653c0dd59">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_k" name="index_k"></a>- k -</h3><ul>
+<li>kCacheLocationMissing&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a377d2c34d1f3becb19a91ea600e05321">fbgemm_gpu</a></li>
+<li>kRowInitBufferSize&#160;:&#160;<a class="el" href="namespacessd.html#a03257f8b2bc7207cc362638228aeb2f6">ssd</a></li>
+</ul>
+
+
+<h3><a id="index_l" name="index_l"></a>- l -</h3><ul>
+<li>L&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a71a77dfc9561ca59031082dfd57dd5ca">fbgemm_gpu</a></li>
+<li>left&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8f5e19e19f12974c9713e920ec54331">fbgemm_gpu</a></li>
+<li>length_to_feature_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a10c64e822d3634da34b9bf1f0c38d757">fbgemm_gpu</a></li>
+<li>lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">fbgemm_gpu</a></li>
+<li>lengths_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2b15eac55dd0239102e264b41febb49f">fbgemm_gpu</a></li>
+<li>lengths_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a80de4cfcf0b435f1edbf9ba9cb999695">fbgemm_gpu</a></li>
+<li>lengths_is_long&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad8b8d41e5b0a7f0f67d18d46f561eef8">fbgemm_gpu</a></li>
+<li>lengths_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab245b3e7b831d8e003a353250359843d">fbgemm_gpu</a></li>
+<li>lengths_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a332f5a97c570870675755b52b91919d6">fbgemm_gpu</a></li>
+<li>linear_index&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a177d197b75db75ee70711f48a28e1524">fbgemm_gpu</a></li>
+<li>list_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a07403af74afe12cdace7e1ec4ff38e72">fbgemm_gpu</a></li>
+<li>logit_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a666f6d4fb27d254047edf38944a98e81">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_m" name="index_m"></a>- m -</h3><ul>
+<li>MAX_ELEMENTS_PER_THREAD&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af75fe947c4a976895a9fb2c7501439b1">fbgemm_gpu</a></li>
+<li>my_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a726d1405842124631d2e9543e6abfd70">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_n" name="index_n"></a>- n -</h3><ul>
+<li>n&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4e34aefb3cc5403a07c020131077100a">fbgemm_gpu</a></li>
+<li>new_indices_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a12ee89697c142bf6626fc9773b3784ce">fbgemm_gpu</a></li>
+<li>new_lengths_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2590465d158f637aa65cb705ceff155d">fbgemm_gpu</a></li>
+<li>new_offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab36576a24b49bfce1e9b6ff66a37ebe1">fbgemm_gpu</a></li>
+<li>new_pos_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1543754093f5b3f003f28b6120d4508f">fbgemm_gpu</a></li>
+<li>new_weights_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2aaf9a58df0549a13d01ab53cd60ddff">fbgemm_gpu</a></li>
+<li>next_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac588c52c993fa6f169cb54d418ea584c">fbgemm_gpu</a></li>
+<li>NUM_ARGS&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a711d3a0cadc94f73da860c1ffd01e1b2">fbgemm_gpu</a></li>
+<li>num_bins&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aff8ee4d321b4a815868fe53b25b8fe6b">fbgemm_gpu</a></li>
+<li>num_cols_group&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f734f38c3537666ae53e906e65c1a6e">fbgemm_gpu</a></li>
+<li>num_lists&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a447e5ea8dc79992a05131d8803d2bf7e">fbgemm_gpu</a></li>
+<li>num_segments&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017">fbgemm_gpu</a></li>
+<li>num_work_rows&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aeb2ce03cab381b1393d4c7c355ef2286">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_o" name="index_o"></a>- o -</h3><ul>
+<li>offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu</a></li>
+<li>offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a66f41f5ea495c26af7e2007fe0a28edc">fbgemm_gpu</a></li>
+<li>output&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0">fbgemm_gpu</a></li>
+<li>output_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a783fcd132908afcc711d1a7fb2cb51a7">fbgemm_gpu</a></li>
+<li>output_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">fbgemm_gpu</a></li>
+<li>output_permute&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54">fbgemm_gpu</a></li>
+<li>output_ptrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a038ee34932113e6d3d38345920211f4c">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_p" name="index_p"></a>- p -</h3><ul>
+<li>per_sample_weights_addrs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a34e6956031d1fc5c0f8df5fb432bcfbd">fbgemm_gpu</a></li>
+<li>permute&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">fbgemm_gpu</a></li>
+<li>permuted_indices&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab448dead4746a419f7d4a69a32c788ea">fbgemm_gpu</a></li>
+<li>permuted_lengths_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a77fcd99017c7bb6155d154951f8f45bc">fbgemm_gpu</a></li>
+<li>permuted_weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a3035a61c641ca380da28b01558f5fdaa">fbgemm_gpu</a></li>
+<li>pre_sigmoid&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a63c15a2ca68e0a1638710ac9d5335e6a">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_r" name="index_r"></a>- r -</h3><ul>
+<li>range_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aef9d86cd563a5416a6c556a5902c966d">fbgemm_gpu</a></li>
+<li>range_size&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad7972a8cfd2b4fbe5e0b5b29f12beaa7">fbgemm_gpu</a></li>
+<li>recalibrate_value&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b36a55458d7d4b9024fd515605c29ee">fbgemm_gpu</a></li>
+<li>right&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2f54f8b71f0d765e2b7dbd9a8b9774ff">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
+<li>seg_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4311f4976e51399caed297d2cad3bfd3">fbgemm_gpu</a></li>
+<li>seg_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adc735e446799084e3d27da58cf5807c3">fbgemm_gpu</a></li>
+<li>segment_end&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a00965ae9e18f8292077b81d9040515c0">fbgemm_gpu</a></li>
+<li>segment_offsets_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a091bd2259a1e959d0052ad2fa399065f">fbgemm_gpu</a></li>
+<li>segment_start&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa58de74ea57ed45322b04e829cb75d9b">fbgemm_gpu</a></li>
+<li>segment_value_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ac49066d09ce07fcb75c1f913da32b626">fbgemm_gpu</a></li>
+<li>SL&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a4478543eef2b1a98a328e4c634b5f6ad">fbgemm_gpu</a></li>
+<li>sorted_infos&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a89d9dff100cfa1f022fcfbf61e2500cc">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_cumulative_run_lengths&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ae6972dc3932ca715765452e39f97f21b">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_num_runs&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9531de3506c1c1753051c949613ee1b5">fbgemm_gpu</a></li>
+<li>sorted_linear_indices_run&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a30d761b81b0e05f95a7a118a17d6c4a2">fbgemm_gpu</a></li>
+<li>src_idx&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a119724f55ff744b85a20a870b5da4152">fbgemm_gpu</a></li>
+<li>start_input&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#abb9cbb13307ba09bfd2a13ca7abbb19b">fbgemm_gpu</a></li>
+<li>step&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a17e8d602b1d99905e55e6b875dc306b5">fbgemm_gpu</a></li>
+<li>stride&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a85f38ec0d4f8474b6d4ccad168974cf9">fbgemm_gpu</a></li>
+<li>sum&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adb83758639b252f212d790847ca2f6b6">fbgemm_gpu</a></li>
+<li>sum_E&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aba761028ac72c20c7defaef09de61d95">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_t" name="index_t"></a>- t -</h3><ul>
+<li>t&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa80cbea4714c980d14626fd87c9287a4">fbgemm_gpu</a></li>
+<li>T&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu</a></li>
+<li>table_offset&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f">fbgemm_gpu</a></li>
+<li>table_offsets&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a114a2ddecfbdbb209bc791977fcb1c0e">fbgemm_gpu</a></li>
+<li>temp_storage&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad0fce99009259dbc5e5c0527eb5b3f64">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_u" name="index_u"></a>- u -</h3><ul>
+<li>uint8_t&#160;:&#160;<a class="el" href="namespacenbit.html#a1360e7840ee58417b26bf9445f94c59d">nbit</a></li>
+<li>unbucketize_permute_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aa403c596f919b42af361fc6554cce9e0">fbgemm_gpu</a></li>
+<li>uncalibrated&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a7b13aa0c4501d0593484a73afe8786c2">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_v" name="index_v"></a>- v -</h3><ul>
+<li>values_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af7acf47e01ed08917ef22330aaa8f95d">fbgemm_gpu</a></li>
+<li>vec_copy_with_implicit_type_cast&lt; int64_t, int32_t, VEC_WIDTH &gt;&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6b717a692f34f1bc7afb9eec6d5f9a2e">fbgemm_gpu</a></li>
+</ul>
+
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>warp_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a039dca4bc32e9ad20122b5855542e292">fbgemm_gpu</a></li>
+<li>warp_offsets_group&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aecfb31f7c9583dd16ed7463ad8328db4">fbgemm_gpu</a></li>
+<li>weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab1426ad1956909abff1b26d04575767a">fbgemm_gpu</a></li>
+<li>weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adc8829ea4c8f30f6aaef00680ba3754a">fbgemm_gpu</a></li>
+<li>weights_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1148e12a9142c43e97064ffe24a0aa63">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_w.html b/namespacemembers_w.html
new file mode 100644
index 000000000..b8324c8f4
--- /dev/null
+++ b/namespacemembers_w.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_w" name="index_w"></a>- w -</h3><ul>
+<li>warp_find_qparams()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a78a26de691da2f45a0e4ddaeda75009d">fbgemm_gpu</a></li>
+<li>warp_id&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a039dca4bc32e9ad20122b5855542e292">fbgemm_gpu</a></li>
+<li>warp_offsets_group&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#aecfb31f7c9583dd16ed7463ad8328db4">fbgemm_gpu</a></li>
+<li>warp_reduce_max()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#acddba9c219634f979df1c8b943ac5e88">fbgemm_gpu</a></li>
+<li>warp_reduce_min()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#af554571b877e978f495835af1920f4fb">fbgemm_gpu</a></li>
+<li>warpBitonicMergeLE16()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a9bd92b10074adc4fc58e4671a1d1d576">fbgemm_gpu</a></li>
+<li>warpReduceAllSum()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ad47dc8c3cfd941ea7a92b1cb677abf8e">fbgemm_gpu</a></li>
+<li>weight&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#ab1426ad1956909abff1b26d04575767a">fbgemm_gpu</a></li>
+<li>weights&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#adc8829ea4c8f30f6aaef00680ba3754a">fbgemm_gpu</a></li>
+<li>weights_data&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a1148e12a9142c43e97064ffe24a0aa63">fbgemm_gpu</a></li>
+<li>while()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a44128eca539acfe55bdf792616e8b5b6">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacemembers_z.html b/namespacemembers_z.html
new file mode 100644
index 000000000..2d3da11f8
--- /dev/null
+++ b/namespacemembers_z.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Namespace Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all namespace members with links to the namespace documentation for each member:</div>
+
+<h3><a id="index_z" name="index_z"></a>- z -</h3><ul>
+<li>zipf_cuda()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a957e5dced6114b32a6d2e5e62011adbf">fbgemm_gpu</a></li>
+<li>zipf_kernel()&#160;:&#160;<a class="el" href="namespacefbgemm__gpu.html#a6991817ca1213e7cc0eba3bad689c03a">fbgemm_gpu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacenbit.html b/namespacenbit.html
new file mode 100644
index 000000000..c4e0fcef4
--- /dev/null
+++ b/namespacenbit.html
@@ -0,0 +1,4620 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: nbit Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">nbit Namespace Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ab71806d51c0bb2fbc0b08fb3ed2b442e" id="r_ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memTemplParams" colspan="2">template&lt;int N&gt; </td></tr>
+<tr class="memitem:ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ab71806d51c0bb2fbc0b08fb3ed2b442e">cp_async_wait</a> ()</td></tr>
+<tr class="separator:ab71806d51c0bb2fbc0b08fb3ed2b442e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aced6599a5180c2faaff5bbb9bc92f147" name="aced6599a5180c2faaff5bbb9bc92f147"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aced6599a5180c2faaff5bbb9bc92f147">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">4 *</td>          <td class="paramname"><span class="paramname"><em>kWarpSize</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a75b5eade7f9536629ce45b5827fb31" name="a0a75b5eade7f9536629ce45b5827fb31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a75b5eade7f9536629ce45b5827fb31">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf462393afe5c0c395c48cf4f889c6f8" name="adf462393afe5c0c395c48cf4f889c6f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf462393afe5c0c395c48cf4f889c6f8">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> OutputRowsPerThread, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> WarpsPerBlock, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> InputRowsInFlight, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> MinNum128BRows, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">size_t</a> MaxNum128BRows, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> DeviceOnly&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">WarpsPerBlock</a> *</td>          <td class="paramname"><span class="paramname"><em>kWarpSize</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9d3f5c31c0728bd8031522979f9fd236" name="a9d3f5c31c0728bd8031522979f9fd236"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d3f5c31c0728bd8031522979f9fd236">&#9670;&#160;</a></span>cp_async_fence()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ __forceinline__ void cp_async_fence </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab71806d51c0bb2fbc0b08fb3ed2b442e" name="ab71806d51c0bb2fbc0b08fb3ed2b442e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab71806d51c0bb2fbc0b08fb3ed2b442e">&#9670;&#160;</a></span>cp_async_wait()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int N&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ __forceinline__ void cp_async_wait </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Partial specialization. </p>
+<p>Blocks until all but N previous cp.async.commit_group operations have committed. </p>
+
+</div>
+</div>
+<a id="a869b22b83f81fa2ed2302ceb80d9b9ca" name="a869b22b83f81fa2ed2302ceb80d9b9ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a869b22b83f81fa2ed2302ceb80d9b9ca">&#9670;&#160;</a></span>cp_async_wait&lt; 0 &gt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ __forceinline__ void <a class="el" href="#ab71806d51c0bb2fbc0b08fb3ed2b442e">cp_async_wait</a>&lt; 0 &gt; </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Blocks until all previous cp.async.commit_group operations have committed. </p>
+
+</div>
+</div>
+<a id="ac46112b67b5de646034bc1d35d44c8fe" name="ac46112b67b5de646034bc1d35d44c8fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac46112b67b5de646034bc1d35d44c8fe">&#9670;&#160;</a></span>cp_async_zfill()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int SizeInBytes&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ __forceinline__ void cp_async_zfill </td>
+          <td>(</td>
+          <td class="paramtype">void *</td>          <td class="paramname"><span class="paramname"><em>smem_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">void const *</td>          <td class="paramname"><span class="paramname"><em>global_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>pred_guard</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Copy with zero fill. </p>
+
+</div>
+</div>
+<a id="a7f38bc64db06ad5e5ee1b4efa55c349d" name="a7f38bc64db06ad5e5ee1b4efa55c349d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f38bc64db06ad5e5ee1b4efa55c349d">&#9670;&#160;</a></span>cp_async_zfill_cg()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int SizeInBytes&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ __forceinline__ void cp_async_zfill_cg </td>
+          <td>(</td>
+          <td class="paramtype">void *</td>          <td class="paramname"><span class="paramname"><em>smem_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">void const *</td>          <td class="paramname"><span class="paramname"><em>global_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>pred_guard</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Partial specialization. </p>
+
+</div>
+</div>
+<a id="a64cf76bab7c5be6cb2b0c7d1b77443a5" name="a64cf76bab7c5be6cb2b0c7d1b77443a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64cf76bab7c5be6cb2b0c7d1b77443a5">&#9670;&#160;</a></span>cutlass_get_smem_pointer() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ unsigned cutlass_get_smem_pointer </td>
+          <td>(</td>
+          <td class="paramtype">void *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>CUTLASS helper to get SMEM pointer. </p>
+
+</div>
+</div>
+<a id="a250008d643379010295dede0b64068c6" name="a250008d643379010295dede0b64068c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a250008d643379010295dede0b64068c6">&#9670;&#160;</a></span>cutlass_get_smem_pointer() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ unsigned cutlass_get_smem_pointer </td>
+          <td>(</td>
+          <td class="paramtype">void const *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+<p>CUTLASS helper to get SMEM pointer. </p>
+
+</div>
+</div>
+<a id="a620ba1c7dba3e279e09759758b7a86db" name="a620ba1c7dba3e279e09759758b7a86db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a620ba1c7dba3e279e09759758b7a86db">&#9670;&#160;</a></span>div_round_up()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">C10_HOST_DEVICE C10_ALWAYS_INLINE <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> div_round_up </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab5d4641eabcd497e393236456c66f662" name="ab5d4641eabcd497e393236456c66f662"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5d4641eabcd497e393236456c66f662">&#9670;&#160;</a></span>false() <span class="overload">[1/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0b028a0d4eab6f827b0747e791479111" name="a0b028a0d4eab6f827b0747e791479111"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b028a0d4eab6f827b0747e791479111">&#9670;&#160;</a></span>false() <span class="overload">[2/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a92aa5aa305b64d0be3324318e749f727" name="a92aa5aa305b64d0be3324318e749f727"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a92aa5aa305b64d0be3324318e749f727">&#9670;&#160;</a></span>false() <span class="overload">[3/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1628074b31c14dcc07fd3d859e9ddf89" name="a1628074b31c14dcc07fd3d859e9ddf89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1628074b31c14dcc07fd3d859e9ddf89">&#9670;&#160;</a></span>false() <span class="overload">[4/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7fd32cfedb1f12bb236748026afb62f0" name="a7fd32cfedb1f12bb236748026afb62f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7fd32cfedb1f12bb236748026afb62f0">&#9670;&#160;</a></span>false() <span class="overload">[5/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a741f318d94db0cb3578afea1e4630cc9" name="a741f318d94db0cb3578afea1e4630cc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a741f318d94db0cb3578afea1e4630cc9">&#9670;&#160;</a></span>false() <span class="overload">[6/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6798d1239a1e727f202aa623317a936c" name="a6798d1239a1e727f202aa623317a936c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6798d1239a1e727f202aa623317a936c">&#9670;&#160;</a></span>false() <span class="overload">[7/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae6208ce34aaecc5de1eea88805352dda" name="ae6208ce34aaecc5de1eea88805352dda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae6208ce34aaecc5de1eea88805352dda">&#9670;&#160;</a></span>false() <span class="overload">[8/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab2d7afb4b654ce45cfc2748e78ac253" name="aab2d7afb4b654ce45cfc2748e78ac253"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab2d7afb4b654ce45cfc2748e78ac253">&#9670;&#160;</a></span>false() <span class="overload">[9/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a90040b4a20a116df4d0c66c160e6e764" name="a90040b4a20a116df4d0c66c160e6e764"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90040b4a20a116df4d0c66c160e6e764">&#9670;&#160;</a></span>false() <span class="overload">[10/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a308832faa1970c724a5589233e352f17" name="a308832faa1970c724a5589233e352f17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a308832faa1970c724a5589233e352f17">&#9670;&#160;</a></span>false() <span class="overload">[11/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04aec5313af7eaae824c4738345d4b6a" name="a04aec5313af7eaae824c4738345d4b6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04aec5313af7eaae824c4738345d4b6a">&#9670;&#160;</a></span>false() <span class="overload">[12/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a249c23ff8c01f39126136bc2539952fe" name="a249c23ff8c01f39126136bc2539952fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a249c23ff8c01f39126136bc2539952fe">&#9670;&#160;</a></span>false() <span class="overload">[13/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9110ca4f61dbcc64cf0f8118cdc97f1" name="af9110ca4f61dbcc64cf0f8118cdc97f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9110ca4f61dbcc64cf0f8118cdc97f1">&#9670;&#160;</a></span>false() <span class="overload">[14/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ef67d9b7b4ba3292ad30493c9daf596" name="a4ef67d9b7b4ba3292ad30493c9daf596"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ef67d9b7b4ba3292ad30493c9daf596">&#9670;&#160;</a></span>false() <span class="overload">[15/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae661502dfcff9025fb909b009a194e2f" name="ae661502dfcff9025fb909b009a194e2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae661502dfcff9025fb909b009a194e2f">&#9670;&#160;</a></span>false() <span class="overload">[16/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f1b79dd7ed41442b0dfb240f2ab0ec7" name="a3f1b79dd7ed41442b0dfb240f2ab0ec7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f1b79dd7ed41442b0dfb240f2ab0ec7">&#9670;&#160;</a></span>false() <span class="overload">[17/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a18e19fee6513187e93010f11a932f6de" name="a18e19fee6513187e93010f11a932f6de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18e19fee6513187e93010f11a932f6de">&#9670;&#160;</a></span>false() <span class="overload">[18/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a62b93a28ed713cca24870802bd016e03" name="a62b93a28ed713cca24870802bd016e03"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a62b93a28ed713cca24870802bd016e03">&#9670;&#160;</a></span>false() <span class="overload">[19/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6502e80c3fcff2fd9816c54de76346c5" name="a6502e80c3fcff2fd9816c54de76346c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6502e80c3fcff2fd9816c54de76346c5">&#9670;&#160;</a></span>false() <span class="overload">[20/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a59ea73f8b7947242291927c972ebf040" name="a59ea73f8b7947242291927c972ebf040"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59ea73f8b7947242291927c972ebf040">&#9670;&#160;</a></span>false() <span class="overload">[21/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0525091bf8439436819eef72a5c45ca6" name="a0525091bf8439436819eef72a5c45ca6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0525091bf8439436819eef72a5c45ca6">&#9670;&#160;</a></span>false() <span class="overload">[22/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a508c0bc5d94dee1c736f755730ca2beb" name="a508c0bc5d94dee1c736f755730ca2beb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a508c0bc5d94dee1c736f755730ca2beb">&#9670;&#160;</a></span>false() <span class="overload">[23/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c70aaadd08c9449d6cedae3e20ea68c" name="a4c70aaadd08c9449d6cedae3e20ea68c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c70aaadd08c9449d6cedae3e20ea68c">&#9670;&#160;</a></span>false() <span class="overload">[24/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> false </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45a36e2eb0376c3e37728ea312851cd7" name="a45a36e2eb0376c3e37728ea312851cd7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45a36e2eb0376c3e37728ea312851cd7">&#9670;&#160;</a></span>padded_D()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ int32_t padded_D </td>
+          <td>(</td>
+          <td class="paramtype">const int32_t</td>          <td class="paramname"><span class="paramname"><em>dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e">fbgemm_gpu::SparseType</a></td>          <td class="paramname"><span class="paramname"><em>weight_ty</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3ac5bf25115544f9067032bef644a215" name="a3ac5bf25115544f9067032bef644a215"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ac5bf25115544f9067032bef644a215">&#9670;&#160;</a></span>padded_row_size_in_bytes()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">C10_HOST_DEVICE C10_ALWAYS_INLINE int32_t padded_row_size_in_bytes </td>
+          <td>(</td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e">fbgemm_gpu::SparseType</a></td>          <td class="paramname"><span class="paramname"><em>weight_ty</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>row_alignment</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adf6ceb44691d377239880812db632ef7" name="adf6ceb44691d377239880812db632ef7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf6ceb44691d377239880812db632ef7">&#9670;&#160;</a></span>pruned_hash_function()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> pruned_hash_function </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>h</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f668dd605c2700542424899b9df54c6" name="a3f668dd605c2700542424899b9df54c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f668dd605c2700542424899b9df54c6">&#9670;&#160;</a></span>round_up()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">C10_HOST_DEVICE C10_ALWAYS_INLINE <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> round_up </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e7304badb9669f2af28007bc9faa533" name="a5e7304badb9669f2af28007bc9faa533"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e7304badb9669f2af28007bc9faa533">&#9670;&#160;</a></span>true() <span class="overload">[1/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4473fe74a275df878cef6094b97142f" name="ac4473fe74a275df878cef6094b97142f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4473fe74a275df878cef6094b97142f">&#9670;&#160;</a></span>true() <span class="overload">[2/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a000a2e8569876d491d4d9578f5bca2fb" name="a000a2e8569876d491d4d9578f5bca2fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a000a2e8569876d491d4d9578f5bca2fb">&#9670;&#160;</a></span>true() <span class="overload">[3/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1b561270c0c573adbb9b099b20a3ca71" name="a1b561270c0c573adbb9b099b20a3ca71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b561270c0c573adbb9b099b20a3ca71">&#9670;&#160;</a></span>true() <span class="overload">[4/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a80b1856aa5c50bef02b6cfc6e07a738f" name="a80b1856aa5c50bef02b6cfc6e07a738f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80b1856aa5c50bef02b6cfc6e07a738f">&#9670;&#160;</a></span>true() <span class="overload">[5/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae950ec6b1a6c8e70896ceea8585e8a94" name="ae950ec6b1a6c8e70896ceea8585e8a94"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae950ec6b1a6c8e70896ceea8585e8a94">&#9670;&#160;</a></span>true() <span class="overload">[6/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5190453e12b3ae3d90ccbad2d0fd3366" name="a5190453e12b3ae3d90ccbad2d0fd3366"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5190453e12b3ae3d90ccbad2d0fd3366">&#9670;&#160;</a></span>true() <span class="overload">[7/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeab80be016250076834edd018371fadc" name="aeab80be016250076834edd018371fadc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeab80be016250076834edd018371fadc">&#9670;&#160;</a></span>true() <span class="overload">[8/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a744a48f6ba12a807eed65323fac0d7b9" name="a744a48f6ba12a807eed65323fac0d7b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a744a48f6ba12a807eed65323fac0d7b9">&#9670;&#160;</a></span>true() <span class="overload">[9/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0e536c5986677aa5c753d497c9ec6ea" name="aa0e536c5986677aa5c753d497c9ec6ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0e536c5986677aa5c753d497c9ec6ea">&#9670;&#160;</a></span>true() <span class="overload">[10/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7f9e825cb23814721fa128e75fd54df" name="aa7f9e825cb23814721fa128e75fd54df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7f9e825cb23814721fa128e75fd54df">&#9670;&#160;</a></span>true() <span class="overload">[11/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af5e4b89707ccb6db711f4b214120f6d4" name="af5e4b89707ccb6db711f4b214120f6d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5e4b89707ccb6db711f4b214120f6d4">&#9670;&#160;</a></span>true() <span class="overload">[12/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9233b0f37aec7890155371e3f1f8a4c6" name="a9233b0f37aec7890155371e3f1f8a4c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9233b0f37aec7890155371e3f1f8a4c6">&#9670;&#160;</a></span>true() <span class="overload">[13/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae298c42e84018c608c72200f61270827" name="ae298c42e84018c608c72200f61270827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae298c42e84018c608c72200f61270827">&#9670;&#160;</a></span>true() <span class="overload">[14/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af580fa47263724bff70ce910764bea41" name="af580fa47263724bff70ce910764bea41"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af580fa47263724bff70ce910764bea41">&#9670;&#160;</a></span>true() <span class="overload">[15/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5614c839b9baa44dd6962fe11a148918" name="a5614c839b9baa44dd6962fe11a148918"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5614c839b9baa44dd6962fe11a148918">&#9670;&#160;</a></span>true() <span class="overload">[16/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acb54005a5872970a6721deca8ff5cd99" name="acb54005a5872970a6721deca8ff5cd99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb54005a5872970a6721deca8ff5cd99">&#9670;&#160;</a></span>true() <span class="overload">[17/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d2686b58c584f889807ad3902056eac" name="a7d2686b58c584f889807ad3902056eac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d2686b58c584f889807ad3902056eac">&#9670;&#160;</a></span>true() <span class="overload">[18/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exponent_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea0485b6b1bbf758999bd85f6affc052" name="aea0485b6b1bbf758999bd85f6affc052"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea0485b6b1bbf758999bd85f6affc052">&#9670;&#160;</a></span>true() <span class="overload">[19/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa4e2b761fd2635bd5d972c84f9e28837" name="aa4e2b761fd2635bd5d972c84f9e28837"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa4e2b761fd2635bd5d972c84f9e28837">&#9670;&#160;</a></span>true() <span class="overload">[20/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab843cff102b60ffbfb639c2371b90f7b" name="ab843cff102b60ffbfb639c2371b90f7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab843cff102b60ffbfb639c2371b90f7b">&#9670;&#160;</a></span>true() <span class="overload">[21/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a085775b780406668fe81c55a30eb3098" name="a085775b780406668fe81c55a30eb3098"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a085775b780406668fe81c55a30eb3098">&#9670;&#160;</a></span>true() <span class="overload">[22/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indice_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad461b37bcc67ce85965ea3d63318b609" name="ad461b37bcc67ce85965ea3d63318b609"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad461b37bcc67ce85965ea3d63318b609">&#9670;&#160;</a></span>true() <span class="overload">[23/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#ae44f656615f2dcbbfec55dc3f365b9e3">float</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6610e53a686bcaa7c0c055493223b286" name="a6610e53a686bcaa7c0c055493223b286"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6610e53a686bcaa7c0c055493223b286">&#9670;&#160;</a></span>true() <span class="overload">[24/24]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> true </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>dev_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>uvm_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_placements</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>weights_tys</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a></td>          <td class="paramname"><span class="paramname"><em>fd_B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>pooling_mode</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>row_alignment</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">pta::PackedTensorAccessor32&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>output</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor64&lt; <a class="el" href="#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a>, 2, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt;</td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7654c0df9e54aa58c35fe39c53130cbc" name="a7654c0df9e54aa58c35fe39c53130cbc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7654c0df9e54aa58c35fe39c53130cbc">&#9670;&#160;</a></span>unpadded_row_size_in_bytes()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">C10_HOST_DEVICE C10_ALWAYS_INLINE int32_t unpadded_row_size_in_bytes </td>
+          <td>(</td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e">fbgemm_gpu::SparseType</a></td>          <td class="paramname"><span class="paramname"><em>weight_ty</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ae44f656615f2dcbbfec55dc3f365b9e3" name="ae44f656615f2dcbbfec55dc3f365b9e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae44f656615f2dcbbfec55dc3f365b9e3">&#9670;&#160;</a></span>float</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> float</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1360e7840ee58417b26bf9445f94c59d" name="a1360e7840ee58417b26bf9445f94c59d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1360e7840ee58417b26bf9445f94c59d">&#9670;&#160;</a></span>uint8_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">template</a> uint8_t</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/namespacessd.html b/namespacessd.html
new file mode 100644
index 000000000..8b85ca350
--- /dev/null
+++ b/namespacessd.html
@@ -0,0 +1,167 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: ssd Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle"><div class="title">ssd Namespace Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac0918c17a5ef4ae94a7d4068512744f9" name="ac0918c17a5ef4ae94a7d4068512744f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0918c17a5ef4ae94a7d4068512744f9">&#9670;&#160;</a></span>db_shard()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">size_t db_shard </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>id</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t</td>          <td class="paramname"><span class="paramname"><em>num_shards</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac14b5cc833767dd1941b5c2de7153299" name="ac14b5cc833767dd1941b5c2de7153299"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac14b5cc833767dd1941b5c2de7153299">&#9670;&#160;</a></span>hostAsynchronousThreadPoolExecutor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void hostAsynchronousThreadPoolExecutor </td>
+          <td>(</td>
+          <td class="paramtype">void(*)(void *)</td>          <td class="paramname"><span class="paramname"><em>f</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">void *</td>          <td class="paramname"><span class="paramname"><em>userData</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a03257f8b2bc7207cc362638228aeb2f6" name="a03257f8b2bc7207cc362638228aeb2f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03257f8b2bc7207cc362638228aeb2f6">&#9670;&#160;</a></span>kRowInitBufferSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr size_t kRowInitBufferSize = 32 * 1024</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/objects.inv b/objects.inv
index 4f9bb70d7..c6e6b5130 100644
Binary files a/objects.inv and b/objects.inv differ
diff --git a/ops__utils_8h.html b/ops__utils_8h.html
new file mode 100644
index 000000000..bce03bd1e
--- /dev/null
+++ b/ops__utils_8h.html
@@ -0,0 +1,137 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/ops_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">ops_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a29047de4dfe891435d8254535634ac1d" name="a29047de4dfe891435d8254535634ac1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29047de4dfe891435d8254535634ac1d">&#9670;&#160;</a></span>DLL_PUBLIC</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DLL_PUBLIC&#160;&#160;&#160;__attribute__((visibility(&quot;default&quot;)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed63a3f5bb9ae1c01f230bee2d95ea05" name="aed63a3f5bb9ae1c01f230bee2d95ea05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed63a3f5bb9ae1c01f230bee2d95ea05">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define FBGEMM_OP_DISPATCH</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">DISPATCH_KEY, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">EXPORT_NAME, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">FUNC_NAME</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_function" href="jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65">TORCH_LIBRARY_IMPL</a>(fbgemm, DISPATCH_KEY, m) {                                \</div>
+<div class="line">    m.impl(                                                                    \</div>
+<div class="line">        EXPORT_NAME,                                                           \</div>
+<div class="line">        torch::dispatch(c10::DispatchKey::DISPATCH_KEY, TORCH_FN(FUNC_NAME))); \</div>
+<div class="line">  }</div>
+<div class="ttc" id="ajagged__tensor__ops__autograd_8cpp_html_a89761ba0ed893bf88bdfdd1f6d15bc65"><div class="ttname"><a href="jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65">TORCH_LIBRARY_IMPL</a></div><div class="ttdeci">TORCH_LIBRARY_IMPL(fbgemm, Autograd, m)</div><div class="ttdef"><b>Definition</b> jagged_tensor_ops_autograd.cpp:849</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__function_8cpp.html b/permute__pooled__embedding__function_8cpp.html
new file mode 100644
index 000000000..ba6ebc1ad
--- /dev/null
+++ b/permute__pooled__embedding__function_8cpp.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_function.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_function.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="permute__pooled__embedding__ops_8h.html">fbgemm_gpu/permute_pooled_embedding_ops.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops_8cu.html b/permute__pooled__embedding__ops_8cu.html
new file mode 100644
index 000000000..7bbf4d5b5
--- /dev/null
+++ b/permute__pooled__embedding__ops_8cu.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="layout__transform__ops_8cuh.html">fbgemm_gpu/layout_transform_ops.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops_8h.html">fbgemm_gpu/permute_pooled_embedding_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops_8h.html b/permute__pooled__embedding__ops_8h.html
new file mode 100644
index 000000000..8cd156f2d
--- /dev/null
+++ b/permute__pooled__embedding__ops_8h.html
@@ -0,0 +1,106 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embedding_ops.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;torch/csrc/api/include/torch/types.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function.html">PermutePooledEmbsFunction</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__cpu_8cpp.html b/permute__pooled__embedding__ops__cpu_8cpp.html
new file mode 100644
index 000000000..ccf4e85ab
--- /dev/null
+++ b/permute__pooled__embedding__ops__cpu_8cpp.html
@@ -0,0 +1,318 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops_8h.html">fbgemm_gpu/permute_pooled_embedding_ops.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a858ecafbed2f155f42fe99391b82e4b4" name="a858ecafbed2f155f42fe99391b82e4b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a858ecafbed2f155f42fe99391b82e4b4">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">Autograd</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_pooled_embs_auto_grad&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__permute-pooled-embs-cpu.html#ga3fd0766d863a18ea5cce4bfdef6a0349">fbgemm_gpu::permute_pooled_embs_auto_grad</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a765ed01147edbd93b01e5f91fe12f68b" name="a765ed01147edbd93b01e5f91fe12f68b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a765ed01147edbd93b01e5f91fe12f68b">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_duplicate_pooled_embs&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#acc5af8d2639bda183a7758a7fb4d4e9a">fbgemm_gpu::permute_duplicate_pooled_embs_cpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0ac9a165fb46ae5738c08e0a887a97b" name="aa0ac9a165fb46ae5738c08e0a887a97b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0ac9a165fb46ae5738c08e0a887a97b">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_duplicate_pooled_embs_auto_grad&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aeabdb24bef8b30a2b80b94a676b2b5fb">fbgemm_gpu::permute_duplicate_pooled_embs_auto_grad_cpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a37755fb9333b1017d34b49ee0247004e" name="a37755fb9333b1017d34b49ee0247004e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a37755fb9333b1017d34b49ee0247004e">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_pooled_embs&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aa321302401045119810e93f42a361f1f">fbgemm_gpu::permute_pooled_embs_cpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83bf468fc58e605fc64461726caad8cf" name="a83bf468fc58e605fc64461726caad8cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83bf468fc58e605fc64461726caad8cf">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[5/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_pooled_embs_auto_grad&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__permute-pooled-embs-cpu.html#gac050c22198470709b89b4d5b160006b0">fbgemm_gpu::permute_pooled_embs_auto_grad_cpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a941e973d6b74e10046ae3373ba10bda2" name="a941e973d6b74e10046ae3373ba10bda2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a941e973d6b74e10046ae3373ba10bda2">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[6/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_pooled_embs&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a1183d2ce4456d290df04c32b215fc22e">fbgemm_gpu::permute_pooled_embs_meta</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7590e07b38befcd57df567cb054cfad3" name="a7590e07b38befcd57df567cb054cfad3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7590e07b38befcd57df567cb054cfad3">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[7/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_pooled_embs_auto_grad&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a4381e6e500aad1cf049aa509fc17b16b">fbgemm_gpu::permute_pooled_embs_auto_grad_meta</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__gpu_8cpp.html b/permute__pooled__embedding__ops__gpu_8cpp.html
new file mode 100644
index 000000000..93bbb3c17
--- /dev/null
+++ b/permute__pooled__embedding__ops__gpu_8cpp.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops_8h.html">fbgemm_gpu/permute_pooled_embedding_ops.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__split_8cu.html b/permute__pooled__embedding__ops__split_8cu.html
new file mode 100644
index 000000000..c35a90243
--- /dev/null
+++ b/permute__pooled__embedding__ops__split_8cu.html
@@ -0,0 +1,120 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops_split.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_split.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="layout__transform__ops_8cuh.html">fbgemm_gpu/layout_transform_ops.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops__split_8h.html">fbgemm_gpu/permute_pooled_embedding_ops_split.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__split_8h.html b/permute__pooled__embedding__ops__split_8h.html
new file mode 100644
index 000000000..b35af7ad4
--- /dev/null
+++ b/permute__pooled__embedding__ops__split_8h.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embedding_ops_split.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_split.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__split__cpu_8cpp.html b/permute__pooled__embedding__ops__split__cpu_8cpp.html
new file mode 100644
index 000000000..332a0de12
--- /dev/null
+++ b/permute__pooled__embedding__ops__split__cpu_8cpp.html
@@ -0,0 +1,140 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops_split_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_split_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops__split_8h.html">fbgemm_gpu/permute_pooled_embedding_ops_split.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embs__function__split_8h.html">fbgemm_gpu/permute_pooled_embs_function_split.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embedding__ops__split__gpu_8cpp.html b/permute__pooled__embedding__ops__split__gpu_8cpp.html
new file mode 100644
index 000000000..350a79432
--- /dev/null
+++ b/permute__pooled__embedding__ops__split__gpu_8cpp.html
@@ -0,0 +1,140 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/permute_pooled_embedding_ops/permute_pooled_embedding_ops_split_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_5d9ed08f5e7f3c5fee3a750ceaf7305f.html">permute_pooled_embedding_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embedding_ops_split_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;c10/util/irange.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embedding__ops__split_8h.html">fbgemm_gpu/permute_pooled_embedding_ops_split.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="permute__pooled__embs__function__split_8h.html">fbgemm_gpu/permute_pooled_embs_function_split.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embs__function_8h.html b/permute__pooled__embs__function_8h.html
new file mode 100644
index 000000000..b292ee19c
--- /dev/null
+++ b/permute__pooled__embs__function_8h.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embs_function.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">permute_pooled_embs_function.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/permute__pooled__embs__function__split_8h.html b/permute__pooled__embs__function__split_8h.html
new file mode 100644
index 000000000..3dda3ab8d
--- /dev/null
+++ b/permute__pooled__embs__function__split_8h.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/permute_pooled_embs_function_split.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">permute_pooled_embs_function_split.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html">PermutePooledEmbsFunctionSplit&lt; permute_pooled_embs_op &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/py-modindex.html b/py-modindex.html
index 1ca1756ae..1a04b70da 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -27,6 +27,8 @@
 
   <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
 
@@ -256,18 +258,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -415,11 +418,9 @@ <h1>Python Module Index</h1>
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>
-         <script src="_static/jquery.js"></script>
-         <script src="_static/underscore.js"></script>
+         <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js"></script>
          <script src="_static/doctools.js"></script>
-         <script src="_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/python-api/jagged_tensor_ops.html b/python-api/jagged_tensor_ops.html
index ce6181ac7..701557093 100644
--- a/python-api/jagged_tensor_ops.html
+++ b/python-api/jagged_tensor_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Sparse Data Operators" href="../cpp-api/sparse_ops.html" />
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,23 +354,23 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="module-fbgemm_gpu">
-<span id="jagged-tensor-operators"></span><h1>Jagged Tensor Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this headline">¶</a></h1>
+<span id="jagged-tensor-operators"></span><h1>Jagged Tensor Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this heading">¶</a></h1>
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_2d_to_dense">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_2d_to_dense</code><span class="sig-paren">(</span><em class="sig-param"><span class="n">values</span></em>, <em class="sig-param"><span class="n">x_offsets</span></em>, <em class="sig-param"><span class="n">max_sequence_length</span></em><span class="sig-paren">)</span> &#x2192; Tensor<a class="headerlink" href="#torch.ops.fbgemm.jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_2d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_2d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_sequence_length</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
 <dd><p>Converts a jagged tensor, with a 2D values array into a dense tensor, padding with zeros.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>values</strong> (<em>Tensor</em>) – 2D tensor containing the values of the jagged tensor.</p></li>
 <li><p><strong>x_offsets</strong> (<em>Tensor</em>) – 1D tensor containing the starting point of each jagged row in the values tensor.</p></li>
-<li><p><strong>max_sequence_length</strong> (<em>int</em>) – Maximum length of any row in the jagged dimension.</p></li>
+<li><p><strong>max_sequence_length</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Maximum length of any row in the jagged dimension.</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>The padded dense tensor</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>Tensor</p>
 </dd>
 </dl>
@@ -386,22 +389,22 @@
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_1d_to_dense">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_1d_to_dense</code><span class="sig-paren">(</span><em class="sig-param">values</em>, <em class="sig-param">offsets</em>, <em class="sig-param">max_sequence_length</em>, <em class="sig-param">padding_value) -&gt; Tensor</em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_1d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_1d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_sequence_length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">padding_value)</span> <span class="pre">-&gt;</span> <span class="pre">Tensor</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
 <dd><p>Converts a jagged tensor, with a 1D values array, into a dense tensor, padding with a specified padding value.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>values</strong> (<em>Tensor</em>) – 1D tensor containing the values of the jagged tensor.</p></li>
 <li><p><strong>offsets</strong> (<em>Tensor</em>) – 1D tensor containing the starting point of each jagged row in the values tensor.</p></li>
-<li><p><strong>max_sequence_length</strong> (<em>int</em>) – Maximum length of any row in the jagged dimension.</p></li>
-<li><p><strong>padding_value</strong> (<em>int</em>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
+<li><p><strong>max_sequence_length</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Maximum length of any row in the jagged dimension.</p></li>
+<li><p><strong>padding_value</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>the padded dense tensor</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>Tensor</p>
 </dd>
 </dl>
@@ -416,21 +419,21 @@
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.dense_to_jagged">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">dense_to_jagged</code><span class="sig-paren">(</span><em class="sig-param">dense</em>, <em class="sig-param">x_offsets</em>, <em class="sig-param">total_L) -&gt; (Tensor</em>, <em class="sig-param">Tensor[]</em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.dense_to_jagged" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.dense_to_jagged">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">dense_to_jagged</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dense</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">total_L)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.dense_to_jagged" title="Permalink to this definition">¶</a></dt>
 <dd><p>Converts a dense tensor into a jagged tensor, given the desired offsets of the resulting dense tensor.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>dense</strong> (<em>Tensor</em>) – A dense input tensor to be converted</p></li>
 <li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
-<li><p><strong>total_L</strong> (<em>int</em><em>, </em><em>Optional</em>) – Total number of values in the resulting jagged tensor.</p></li>
+<li><p><strong>total_L</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><em>Optional</em>) – Total number of values in the resulting jagged tensor.</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>(Tensor, Tensor[])</p>
 </dd>
 </dl>
@@ -446,22 +449,22 @@
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_to_padded_dense">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_to_padded_dense</code><span class="sig-paren">(</span><em class="sig-param"><span class="n">values</span></em>, <em class="sig-param"><span class="n">offsets</span></em>, <em class="sig-param"><span class="n">max_lengths</span></em>, <em class="sig-param"><span class="n">padding_value</span><span class="o">=</span><span class="default_value">0</span></em><span class="sig-paren">)</span> &#x2192; Tensor<a class="headerlink" href="#torch.ops.fbgemm.jagged_to_padded_dense" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_to_padded_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_to_padded_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_lengths</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">padding_value</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_to_padded_dense" title="Permalink to this definition">¶</a></dt>
 <dd><p>Converts a jagged tensor into a dense tensor, padding with a specified padding value.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
-<li><p><strong>max_lengths</strong> (<em>int</em><em>[</em><em>]</em>) – A list with max_length for each jagged dimension.</p></li>
-<li><p><strong>padding_value</strong> (<em>float</em>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
+<li><p><strong>max_lengths</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>[</em><em>]</em>) – A list with max_length for each jagged dimension.</p></li>
+<li><p><strong>padding_value</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a>) – Value to set in the empty areas of the dense output, outside of the jagged tensor coverage.</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>the padded dense tensor</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>Tensor</p>
 </dd>
 </dl>
@@ -480,54 +483,54 @@
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_dense_elementwise_add">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_dense_elementwise_add</code><span class="sig-paren">(</span><em class="sig-param"><span class="n">x_values</span></em>, <em class="sig-param"><span class="n">x_offsets</span></em>, <em class="sig-param"><span class="n">y</span></em><span class="sig-paren">)</span> &#x2192; Tensor<a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_add">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_add</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add" title="Permalink to this definition">¶</a></dt>
 <dd><p>Adds a jagged tensor to a dense tensor, resulting in dense tensor. Jagged
 tensor input will be padded with zeros for the purposes of the addition.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
 <li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>The sum of jagged input tensor + y</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>Tensor</p>
 </dd>
 </dl>
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_dense_elementwise_add_jagged_output</code><span class="sig-paren">(</span><em class="sig-param">x_values</em>, <em class="sig-param">x_offsets</em>, <em class="sig-param">y) -&gt; (Tensor</em>, <em class="sig-param">Tensor[]</em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_add_jagged_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
 <dd><p>Adds a jagged tensor to a dense tensor and, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
 <li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>(Tensor, Tensor[])</p>
 </dd>
 </dl>
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_dense_dense_elementwise_add_jagged_output</code><span class="sig-paren">(</span><em class="sig-param">x_values</em>, <em class="sig-param">x_offsets</em>, <em class="sig-param">y_0</em>, <em class="sig-param">y_1) -&gt; (Tensor</em>, <em class="sig-param">Tensor[]</em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_dense_elementwise_add_jagged_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y_0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y_1)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output" title="Permalink to this definition">¶</a></dt>
 <dd><p>Adds a jagged tensor to the sum of two dense tensors, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
@@ -535,67 +538,67 @@
 <li><p><strong>y_1</strong> (<em>Tensor</em>) – A dense tensor</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>(Tensor, Tensor[])</p>
 </dd>
 </dl>
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.jagged_dense_elementwise_mul">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">jagged_dense_elementwise_mul</code><span class="sig-paren">(</span><em class="sig-param">x_values</em>, <em class="sig-param">x_offsets</em>, <em class="sig-param">y) -&gt; (Tensor</em>, <em class="sig-param">Tensor[]</em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_mul" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.jagged_dense_elementwise_mul">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">jagged_dense_elementwise_mul</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">x_offsets</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y)</span> <span class="pre">-&gt;</span> <span class="pre">(Tensor</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor[]</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.jagged_dense_elementwise_mul" title="Permalink to this definition">¶</a></dt>
 <dd><p>Elementwise-multiplies a jagged tensor a dense tensor and, resulting in a jagged tensor with the same structure as the input jagged tensor.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>x_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>x_offsets</strong> (<em>Tensor</em><em>[</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
 <li><p><strong>y</strong> (<em>Tensor</em>) – A dense tensor</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>Values and offsets of the resulting jagged tensor. Offsets are identital to those that were input.</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>(Tensor, Tensor[])</p>
 </dd>
 </dl>
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">batched_dense_vec_jagged_2d_mul</code><span class="sig-paren">(</span><em class="sig-param">Tensor v</em>, <em class="sig-param">Tensor a_values</em>, <em class="sig-param">Tensor a_offsets</em><span class="sig-paren">)</span> &#x2192; Tensor<a class="headerlink" href="#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">batched_dense_vec_jagged_2d_mul</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">v</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">a_values</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">Tensor</span> <span class="pre">a_offsets</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tensor</span></span></span><a class="headerlink" href="#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul" title="Permalink to this definition">¶</a></dt>
 <dd><p>Batched vector matrix multiplication of a batched dense vector with a jagged tensor, dense vector is in
 size (B * H, max_N) and jagged tensor is in size (B, max_N, H * D) where max_N is the maximum size of
 jagged dimension. B * H is the batch size and each multiplies is max_N with [max_N, D]</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>v</strong> (<em>Tensor</em>) – dense vector tensor</p></li>
 <li><p><strong>a_values</strong> (<em>Tensor</em>) – Jagged tensor values</p></li>
 <li><p><strong>a_offsets</strong> (<em>Tensor</em><em> [</em><em>]</em>) – A list of jagged offset tensors, one for each jagged dimension.</p></li>
 </ul>
 </dd>
-<dt class="field-even">Returns</dt>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
 <dd class="field-even"><p>output of batch matmul in size (B * H, D)</p>
 </dd>
-<dt class="field-odd">Return type</dt>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
 <dd class="field-odd"><p>Tensor</p>
 </dd>
 </dl>
 </dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.stacked_jagged_1d_to_dense">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">stacked_jagged_1d_to_dense</code><span class="sig-paren">(</span><em class="sig-param"><span class="o">*</span><span class="n">args</span></em>, <em class="sig-param"><span class="o">**</span><span class="n">kwargs</span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.stacked_jagged_1d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">stacked_jagged_1d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_1d_to_dense" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
 <dl class="py function">
-<dt id="torch.ops.fbgemm.stacked_jagged_2d_to_dense">
-<code class="sig-prename descclassname">torch.ops.fbgemm.</code><code class="sig-name descname">stacked_jagged_2d_to_dense</code><span class="sig-paren">(</span><em class="sig-param"><span class="o">*</span><span class="n">args</span></em>, <em class="sig-param"><span class="o">**</span><span class="n">kwargs</span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="torch.ops.fbgemm.stacked_jagged_2d_to_dense">
+<span class="sig-prename descclassname"><span class="pre">torch.ops.fbgemm.</span></span><span class="sig-name descname"><span class="pre">stacked_jagged_2d_to_dense</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="headerlink" href="#torch.ops.fbgemm.stacked_jagged_2d_to_dense" title="Permalink to this definition">¶</a></dt>
 <dd></dd></dl>
 
 </section>
@@ -643,7 +646,20 @@
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">Jagged Tensor Operators</a></li>
+<li><a class="reference internal" href="#">Jagged Tensor Operators</a><ul>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_2d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">jagged_1d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.dense_to_jagged"><code class="docutils literal notranslate"><span class="pre">dense_to_jagged()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_to_padded_dense"><code class="docutils literal notranslate"><span class="pre">jagged_to_padded_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_add"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"><code class="docutils literal notranslate"><span class="pre">jagged_dense_dense_elementwise_add_jagged_output()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.jagged_dense_elementwise_mul"><code class="docutils literal notranslate"><span class="pre">jagged_dense_elementwise_mul()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"><code class="docutils literal notranslate"><span class="pre">batched_dense_vec_jagged_2d_mul()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.stacked_jagged_1d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_1d_to_dense()</span></code></a></li>
+<li><a class="reference internal" href="#torch.ops.fbgemm.stacked_jagged_2d_to_dense"><code class="docutils literal notranslate"><span class="pre">stacked_jagged_2d_to_dense()</span></code></a></li>
+</ul>
+</li>
 </ul>
 
             </div>
@@ -659,11 +675,9 @@
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/python-api/table_batched_embedding_ops.html b/python-api/table_batched_embedding_ops.html
index c3f02b7c2..1bf9430c9 100644
--- a/python-api/table_batched_embedding_ops.html
+++ b/python-api/table_batched_embedding_ops.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,10 +28,12 @@
 
   <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
     <link rel="next" title="Jagged Tensor Operators" href="jagged_tensor_ops.html" />
-    <link rel="prev" title="Testing FBGEMM_GPU" href="../general/TestInstructions.html" />
+    <link rel="prev" title="Contributing Documentation" href="../general/DocsInstructions.html" />
   <!-- Google Tag Manager -->
     <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
     new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul class="current">
 <li class="toctree-l1 current"><a class="current reference internal" href="#">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,37 +354,37 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="module-fbgemm_gpu">
-<span id="table-batched-embedding-tbe-operators"></span><h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this headline">¶</a></h1>
+<span id="table-batched-embedding-tbe-operators"></span><h1>Table Batched Embedding (TBE) Operators<a class="headerlink" href="#module-fbgemm_gpu" title="Permalink to this heading">¶</a></h1>
 <dl class="py function">
-<dt id="fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen">
-<code class="sig-prename descclassname">fbgemm_gpu.split_table_batched_embeddings_ops.</code><code class="sig-name descname">SplitTableBatchedEmbeddingBagsCodegen</code><span class="sig-paren">(</span><em class="sig-param"><span class="n">embedding_specs</span></em>, <em class="sig-param"><span class="n">feature_table_map</span><span class="o">=</span><span class="default_value">None</span></em>, <em class="sig-param"><span class="n">cache_algorithm</span><span class="o">=</span><span class="default_value">CacheAlgorithm.LRU</span></em>, <em class="sig-param"><span class="n">cache_load_factor</span><span class="o">=</span><span class="default_value">0.2</span></em>, <em class="sig-param"><span class="n">cache_sets</span><span class="o">=</span><span class="default_value">0</span></em>, <em class="sig-param"><span class="n">cache_reserved_memory</span><span class="o">=</span><span class="default_value">0.0</span></em>, <em class="sig-param"><span class="n">cache_precision</span><span class="o">=</span><span class="default_value">SparseType.FP32</span></em>, <em class="sig-param"><span class="n">weights_precision</span><span class="o">=</span><span class="default_value">SparseType.FP32</span></em>, <em class="sig-param"><span class="n">output_dtype</span><span class="o">=</span><span class="default_value">SparseType.FP32</span></em>, <em class="sig-param"><span class="n">enforce_hbm</span><span class="o">=</span><span class="default_value">False</span></em>, <em class="sig-param"><span class="n">optimizer</span><span class="o">=</span><span class="default_value">OptimType.EXACT_SGD</span></em>, <em class="sig-param"><span class="n">record_cache_metrics</span><span class="o">=</span><span class="default_value">None</span></em>, <em class="sig-param"><span class="n">stochastic_rounding</span><span class="o">=</span><span class="default_value">True</span></em>, <em class="sig-param"><span class="n">gradient_clipping</span><span class="o">=</span><span class="default_value">False</span></em>, <em class="sig-param"><span class="n">max_gradient</span><span class="o">=</span><span class="default_value">1.0</span></em>, <em class="sig-param"><span class="n">learning_rate</span><span class="o">=</span><span class="default_value">0.01</span></em>, <em class="sig-param"><span class="n">eps</span><span class="o">=</span><span class="default_value">1.0e-8</span></em>, <em class="sig-param"><span class="n">momentum</span><span class="o">=</span><span class="default_value">0.9</span></em>, <em class="sig-param"><span class="n">weight_decay</span><span class="o">=</span><span class="default_value">0.0</span></em>, <em class="sig-param"><span class="n">weight_decay_mode</span><span class="o">=</span><span class="default_value">WeightDecayMode.NONE</span></em>, <em class="sig-param"><span class="n">eta</span><span class="o">=</span><span class="default_value">0.001</span></em>, <em class="sig-param"><span class="n">beta1</span><span class="o">=</span><span class="default_value">0.9</span></em>, <em class="sig-param"><span class="n">beta2</span><span class="o">=</span><span class="default_value">0.999</span></em>, <em class="sig-param"><span class="n">pooling_mode</span><span class="o">=</span><span class="default_value">PoolingMode.SUM</span></em>, <em class="sig-param"><span class="n">device</span><span class="o">=</span><span class="default_value">None</span></em>, <em class="sig-param"><span class="n">bounds_check_mode</span><span class="o">=</span><span class="default_value">BoundsCheckMode.WARNING</span></em><span class="sig-paren">)</span> &#x2192; None<a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen" title="Permalink to this definition">¶</a></dt>
+<dt class="sig sig-object py" id="fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen">
+<span class="sig-prename descclassname"><span class="pre">fbgemm_gpu.split_table_batched_embeddings_ops.</span></span><span class="sig-name descname"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">embedding_specs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_table_map</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_algorithm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">CacheAlgorithm.LRU</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_load_factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_sets</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_reserved_memory</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cache_precision</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weights_precision</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_dtype</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">SparseType.FP32</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enforce_hbm</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">optimizer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">OptimType.EXACT_SGD</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_cache_metrics</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stochastic_rounding</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">gradient_clipping</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gradient</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">learning_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.01</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0e-8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">momentum</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_decay_mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">WeightDecayMode.NONE</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">eta</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.001</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta1</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.9</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta2</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.999</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pooling_mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">PoolingMode.SUM</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">device</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">bounds_check_mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">BoundsCheckMode.WARNING</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference external" href="https://docs.python.org/3/library/constants.html#None" title="(in Python v3.12)"><span class="pre">None</span></a></span></span><a class="headerlink" href="#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen" title="Permalink to this definition">¶</a></dt>
 <dd><p>Table batched Embedding operator.  Looks up one or more embedding tables. The module is application for training. The backward operator is fused with optimizer. Thus, the embedding tables are updated during backward.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
-<li><p><strong>embedding_specs</strong> (<em>List</em><em>[</em><em>Tuple</em><em>[</em><em>int</em><em>, </em><em>int</em><em>, </em><em>EmbeddingLocation</em><em>, </em><em>ComputeDevice</em><em>]</em><em>]</em>) – A list of embedding specifications. Each spec is a tuple of (number of embedding rows, embedding dimension; must be a multiple of 4, table placement, compute device).</p></li>
-<li><p><strong>feature_table_map</strong> (<em>List</em><em>[</em><em>int</em><em>]</em><em>, </em><em>optional</em>) – An optional list that specifies feature-table mapping.</p></li>
+<li><p><strong>embedding_specs</strong> (<em>List</em><em>[</em><em>Tuple</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><em>EmbeddingLocation</em><em>, </em><em>ComputeDevice</em><em>]</em><em>]</em>) – A list of embedding specifications. Each spec is a tuple of (number of embedding rows, embedding dimension; must be a multiple of 4, table placement, compute device).</p></li>
+<li><p><strong>feature_table_map</strong> (<em>List</em><em>[</em><a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>]</em><em>, </em><em>optional</em>) – An optional list that specifies feature-table mapping.</p></li>
 <li><p><strong>cache_algorithm</strong> (<em>CacheAlgorithm</em><em>, </em><em>optional</em>) – LXU cache algorithm (<cite>CacheAlgorithm.LRU</cite>, <cite>CacheAlgorithm.LFU</cite>)</p></li>
-<li><p><strong>cache_load_factor</strong> (<em>float</em><em>, </em><em>optional</em>) – The LXU cache capacity which is <cite>cache_load_factor</cite> * the total number of rows in all embedding tables</p></li>
-<li><p><strong>cache_sets</strong> (<em>int</em><em>, </em><em>optional</em>) – The number of cache sets</p></li>
-<li><p><strong>cache_reserved_memory</strong> (<em>float</em><em>, </em><em>optional</em>) – Amount of memory reserved in HBM for non-cache purpose.</p></li>
+<li><p><strong>cache_load_factor</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The LXU cache capacity which is <cite>cache_load_factor</cite> * the total number of rows in all embedding tables</p></li>
+<li><p><strong>cache_sets</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#int" title="(in Python v3.12)"><em>int</em></a><em>, </em><em>optional</em>) – The number of cache sets</p></li>
+<li><p><strong>cache_reserved_memory</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – Amount of memory reserved in HBM for non-cache purpose.</p></li>
 <li><p><strong>cache_precision</strong> (<em>SparseType</em><em>, </em><em>optional</em>) – Data type of LXU cache (<cite>SparseType.FP32</cite>, <cite>SparseType.FP16</cite>)</p></li>
 <li><p><strong>weights_precision</strong> (<em>SparseType</em><em>, </em><em>optional</em>) – Data type of embedding tables (also known as weights) (<cite>SparseType.FP32</cite>, <cite>SparseType.FP16</cite>, <cite>SparseType.INT8</cite>)</p></li>
 <li><p><strong>output_dtype</strong> (<em>SparseType</em><em>, </em><em>optional</em>) – Data type of an output tensor (<cite>SparseType.FP32</cite>, <cite>SparseType.FP16</cite>, <cite>SparseType.INT8</cite>)</p></li>
-<li><p><strong>enforce_hbm</strong> (<em>bool</em><em>, </em><em>optional</em>) – If True, place all weights/momentums in HBM when using cache</p></li>
+<li><p><strong>enforce_hbm</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><em>bool</em></a><em>, </em><em>optional</em>) – If True, place all weights/momentums in HBM when using cache</p></li>
 <li><p><strong>optimizer</strong> (<em>OptimType</em><em>, </em><em>optional</em>) – An optimizer to use for embedding table update in the backward pass. (<cite>OptimType.ADAM</cite>, <cite>OptimType.EXACT_ADAGRAD</cite>, <cite>OptimType.EXACT_ROWWISE_ADAGRAD</cite>, <cite>OptimType.EXACT_ROWWISE_WEIGHTED_ADAGRAD</cite>, <cite>OptimType.EXACT_SGD</cite>, <cite>OptimType.LAMB</cite>, <cite>OptimType.LARS_SGD</cite>, <cite>OptimType.PARTIAL_ROWWISE_ADAM</cite>, <cite>OptimType.PARTIAL_ROWWISE_LAMB</cite>, <cite>OptimType.SGD</cite>)</p></li>
 <li><p><strong>record_cache_metrics</strong> (<em>RecordCacheMetrics</em><em>, </em><em>optional</em>) – Record number of hits, number of requests, etc if RecordCacheMetrics.record_cache_miss_counter is True and record the similar metrics table-wise if RecordCacheMetrics.record_tablewise_cache_miss is True (default is None).</p></li>
-<li><p><strong>stochastic_rounding</strong> (<em>bool</em><em>, </em><em>optional</em>) – If True, apply stochastic rounding for weight type that is not <cite>SparseType.FP32</cite></p></li>
-<li><p><strong>gradient_clipping</strong> (<em>bool</em><em>, </em><em>optional</em>) – If True, apply gradient clipping</p></li>
-<li><p><strong>max_gradient</strong> (<em>float</em><em>, </em><em>optional</em>) – The value for gradient clipping</p></li>
-<li><p><strong>learning_rate</strong> (<em>float</em><em>, </em><em>optional</em>) – The learning rate</p></li>
-<li><p><strong>eps</strong> (<em>float</em><em>, </em><em>optional</em>) – The epsilon value used by Adagrad, LAMB, and Adam</p></li>
-<li><p><strong>momentum</strong> (<em>float</em><em>, </em><em>optional</em>) – Momentum used by LARS-SGD</p></li>
-<li><p><strong>weight_decay</strong> (<em>float</em><em>, </em><em>optional</em>) – Weight decay used by LARS-SGD, LAMB, ADAM, and Rowwise Adagrad</p></li>
+<li><p><strong>stochastic_rounding</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><em>bool</em></a><em>, </em><em>optional</em>) – If True, apply stochastic rounding for weight type that is not <cite>SparseType.FP32</cite></p></li>
+<li><p><strong>gradient_clipping</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#bool" title="(in Python v3.12)"><em>bool</em></a><em>, </em><em>optional</em>) – If True, apply gradient clipping</p></li>
+<li><p><strong>max_gradient</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The value for gradient clipping</p></li>
+<li><p><strong>learning_rate</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The learning rate</p></li>
+<li><p><strong>eps</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The epsilon value used by Adagrad, LAMB, and Adam</p></li>
+<li><p><strong>momentum</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – Momentum used by LARS-SGD</p></li>
+<li><p><strong>weight_decay</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – Weight decay used by LARS-SGD, LAMB, ADAM, and Rowwise Adagrad</p></li>
 <li><p><strong>weight_decay_mode</strong> (<em>WeightDecayMode</em><em>, </em><em>optional</em>) – Weight decay mode (<cite>WeightDecayMode.NONE</cite>, <cite>WeightDecayMode.L2</cite>, <cite>WeightDecayMode.DECOUPLE</cite>)</p></li>
-<li><p><strong>eta</strong> (<em>float</em><em>, </em><em>optional</em>) – The eta value used by LARS-SGD</p></li>
-<li><p><strong>beta1</strong> (<em>float</em><em>, </em><em>optional</em>) – The beta1 value used by LAMB and ADAM</p></li>
-<li><p><strong>beta2</strong> (<em>float</em><em>, </em><em>optional</em>) – The beta2 value used by LAMB and ADAM</p></li>
+<li><p><strong>eta</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The eta value used by LARS-SGD</p></li>
+<li><p><strong>beta1</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The beta1 value used by LAMB and ADAM</p></li>
+<li><p><strong>beta2</strong> (<a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.12)"><em>float</em></a><em>, </em><em>optional</em>) – The beta2 value used by LAMB and ADAM</p></li>
 <li><p><strong>pooling_mode</strong> (<em>PoolingMode</em><em>, </em><em>optional</em>) – Pooling mode (<cite>PoolingMode.SUM</cite>, <cite>PoolingMode.MEAN</cite>, <cite>PoolingMode.NONE</cite>)</p></li>
 <li><p><strong>device</strong> (<a class="reference external" href="https://pytorch.org/docs/master/tensor_attributes.html#torch.device" title="(in PyTorch vmaster (2.1.0a0+gitbe0b12e ))"><em>torch.device</em></a><em>, </em><em>optional</em>) – The current device to place tensors on</p></li>
 <li><p><strong>bounds_check_mode</strong> (<em>BoundsCheckMode</em><em>, </em><em>optional</em>) – If not set to <cite>BoundsCheckMode.NONE</cite>, apply boundary check for indices (<cite>BoundsCheckMode.NONE</cite>, <cite>BoundsCheckMode.FATAL</cite>, <cite>BoundsCheckMode.WARNING</cite>, <cite>BoundsCheckMode.IGNORE</cite>)</p></li>
@@ -396,7 +399,7 @@
 </dd>
 </dl>
 <dl class="field-list simple">
-<dt class="field-odd">Returns</dt>
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
 <dd class="field-odd"><p>A 2D-tensor containing looked up data. Shape <cite>(B, total_D)</cite> where <cite>B</cite> = batch size and <cite>total_D</cite> = the sum of all embedding dimensions in the table</p>
 </dd>
 </dl>
@@ -471,7 +474,7 @@
         <a href="jagged_tensor_ops.html" class="btn btn-neutral float-right" title="Jagged Tensor Operators" accesskey="n" rel="next">Next <img src="../_static/images/chevron-right-orange.svg" class="next-page"></a>
       
       
-        <a href="../general/TestInstructions.html" class="btn btn-neutral" title="Testing FBGEMM_GPU" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
+        <a href="../general/DocsInstructions.html" class="btn btn-neutral" title="Contributing Documentation" accesskey="p" rel="prev"><img src="../_static/images/chevron-right-orange.svg" class="previous-page"> Previous</a>
       
     </div>
   
@@ -503,7 +506,10 @@
           <div class="pytorch-right-menu" id="pytorch-right-menu">
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
-<li><a class="reference internal" href="#">Table Batched Embedding (TBE) Operators</a></li>
+<li><a class="reference internal" href="#">Table Batched Embedding (TBE) Operators</a><ul>
+<li><a class="reference internal" href="#fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen"><code class="docutils literal notranslate"><span class="pre">SplitTableBatchedEmbeddingBagsCodegen()</span></code></a></li>
+</ul>
+</li>
 </ul>
 
             </div>
@@ -519,11 +525,9 @@
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
+         <script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
          <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/CODE_OF_CONDUCT.html b/pytorch-sphinx-theme/CODE_OF_CONDUCT.html
deleted file mode 100644
index f5a4c2aa1..000000000
--- a/pytorch-sphinx-theme/CODE_OF_CONDUCT.html
+++ /dev/null
@@ -1,757 +0,0 @@
-
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>Code of Conduct &mdash; fbgemm 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
-  <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
-    <link rel="index" title="Index" href="../genindex.html" />
-    <link rel="search" title="Search" href="../search.html" />
-  <!-- Google Tag Manager -->
-    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
-    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
-    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
-    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
-    })(window,document,'script','dataLayer','UA-117752657-2');</script>
-    <!-- End Google Tag Manager -->
-  
-
-  
-  <script src="../_static/js/modernizr.min.js"></script>
-
-  <!-- Preload the theme fonts -->
-
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-
-<!-- Preload the katex fonts -->
-
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
-</head>
-
-<div class="container-fluid header-holder tutorials-header" id="header-holder">
-  <div class="container">
-    <div class="header-container">
-      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
-
-      <div class="main-menu">
-        <ul>
-          <li>
-            <a href="https://pytorch.org/get-started">Get Started</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
-          </li>
-
-          <li>
-          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-arrow">
-                Edge
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
-                  <span class="dropdown-title">About PyTorch Edge</span>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/executorch">
-                  <span class="dropdown-title">ExecuTorch</span>
-                </a>
-              </div>
-            </div>  
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/blog/">Blog</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/tutorials">Tutorials</a>
-          </li>
-
-          <li>
-            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-orange-arrow">
-                Docs
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
-                  <span class="dropdown-title">PyTorch</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/audio/stable/index.html">
-                  <span class="dropdown-title">torchaudio</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/text/stable/index.html">
-                  <span class="dropdown-title">torchtext</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/vision/stable/index.html">
-                  <span class="dropdown-title">torchvision</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torcharrow">
-                  <span class="dropdown-title">torcharrow</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/data">
-                  <span class="dropdown-title">TorchData</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchrec">
-                  <span class="dropdown-title">TorchRec</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/serve/">
-                  <span class="dropdown-title">TorchServe</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchx/">
-                  <span class="dropdown-title">TorchX</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/xla">
-                  <span class="dropdown-title">PyTorch on XLA Devices</span>
-                  <p></p>
-                </a>
-            </div>
-          </li>
-
-          <li>
-            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-arrow">
-                Resources
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="nav-dropdown-item" href="https://pytorch.org/features">
-                  <span class="dropdown-title">About</span>
-                  <p>Learn about PyTorch’s features and capabilities</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
-                  <span class="dropdown-title">PyTorch Foundation</span>
-                  <p>Learn about the PyTorch foundation</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
-                  <span class="dropdown-title">Community</span>
-                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered.</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
-                  <span class="dropdown-title">Community Stories</span>
-                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch.</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
-                  <span class="dropdown-title">Developer Resources</span>
-                  <p>Find resources and get questions answered</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/events">
-                  <span class="dropdown-title">Events</span>
-                  <p>Find events, webinars, and podcasts</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
-                  <span class="dropdown-title">Forums</span>
-                  <p>A place to discuss PyTorch code, issues, install, research</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/hub">
-                  <span class="dropdown-title">Models (Beta)</span>
-                  <p>Discover, publish, and reuse pre-trained models</p>
-                </a>
-              </div>
-            </div>
-          </li>
-
-          <li>
-            <a href="https://github.com/pytorch/pytorch">GitHub</a>
-          </li>
-        </ul>
-      </div>
-
-      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
-    </div>
-  </div>
-</div>
-
-<body class="pytorch-body">
-
-   
-
-    
-
-    <div class="table-of-contents-link-wrapper">
-      <span>Table of Contents</span>
-      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
-    </div>
-
-    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
-      <div class="pytorch-side-scroll">
-        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          <div class="pytorch-left-menu-search">
-            
-
-            
-              
-              
-            
-
-            
-
-
-  
-
-
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
-    <input type="text" name="q" placeholder="Search Docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-            
-          </div>
-
-          
-            
-            
-              
-            
-            
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
-</ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
-</ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/merge_pooled_embeddings.html">Pooled Embeddings Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/split_table_batched_embeddings.html">Table Batched Embedding Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/memory_utils.html">CUDA Memory Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/input_combine.html">Combine Input Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/embedding_ops.html">Embedding Operators</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <div class="pytorch-container">
-      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
-        <div class="pytorch-breadcrumbs-wrapper">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="pytorch-breadcrumbs">
-    
-      <li>
-        <a href="../index.html">
-          
-            Docs
-          
-        </a> &gt;
-      </li>
-
-        
-      <li>Code of Conduct</li>
-    
-    
-      <li class="pytorch-breadcrumbs-aside">
-        
-            
-            <a href="../_sources/pytorch-sphinx-theme/CODE_OF_CONDUCT.md.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
-          
-        
-      </li>
-    
-  </ul>
-
-  
-</div>
-        </div>
-
-        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
-          Shortcuts
-        </div>
-      </div>
-
-      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
-        <div class="pytorch-content-left">
-
-        
-          <!-- Google Tag Manager (noscript) -->
-          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=UA-117752657-2"
-          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
-          <!-- End Google Tag Manager (noscript) -->
-          
-          <div class="rst-content">
-          
-            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
-             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
-              
-  <section id="code-of-conduct">
-<h1>Code of Conduct<a class="headerlink" href="#code-of-conduct" title="Permalink to this headline">¶</a></h1>
-<section id="our-pledge">
-<h2>Our Pledge<a class="headerlink" href="#our-pledge" title="Permalink to this headline">¶</a></h2>
-<p>In the interest of fostering an open and welcoming environment, we as
-contributors and maintainers pledge to make participation in our project and
-our community a harassment-free experience for everyone, regardless of age, body
-size, disability, ethnicity, sex characteristics, gender identity and expression,
-level of experience, education, socio-economic status, nationality, personal
-appearance, race, religion, or sexual identity and orientation.</p>
-</section>
-<section id="our-standards">
-<h2>Our Standards<a class="headerlink" href="#our-standards" title="Permalink to this headline">¶</a></h2>
-<p>Examples of behavior that contributes to creating a positive environment
-include:</p>
-<ul class="simple">
-<li><p>Using welcoming and inclusive language</p></li>
-<li><p>Being respectful of differing viewpoints and experiences</p></li>
-<li><p>Gracefully accepting constructive criticism</p></li>
-<li><p>Focusing on what is best for the community</p></li>
-<li><p>Showing empathy towards other community members</p></li>
-</ul>
-<p>Examples of unacceptable behavior by participants include:</p>
-<ul class="simple">
-<li><p>The use of sexualized language or imagery and unwelcome sexual attention or
-advances</p></li>
-<li><p>Trolling, insulting/derogatory comments, and personal or political attacks</p></li>
-<li><p>Public or private harassment</p></li>
-<li><p>Publishing others’ private information, such as a physical or electronic
-address, without explicit permission</p></li>
-<li><p>Other conduct which could reasonably be considered inappropriate in a
-professional setting</p></li>
-</ul>
-</section>
-<section id="our-responsibilities">
-<h2>Our Responsibilities<a class="headerlink" href="#our-responsibilities" title="Permalink to this headline">¶</a></h2>
-<p>Project maintainers are responsible for clarifying the standards of acceptable
-behavior and are expected to take appropriate and fair corrective action in
-response to any instances of unacceptable behavior.</p>
-<p>Project maintainers have the right and responsibility to remove, edit, or
-reject comments, commits, code, wiki edits, issues, and other contributions
-that are not aligned to this Code of Conduct, or to ban temporarily or
-permanently any contributor for other behaviors that they deem inappropriate,
-threatening, offensive, or harmful.</p>
-</section>
-<section id="scope">
-<h2>Scope<a class="headerlink" href="#scope" title="Permalink to this headline">¶</a></h2>
-<p>This Code of Conduct applies within all project spaces, and it also applies when
-an individual is representing the project or its community in public spaces.
-Examples of representing a project or community include using an official
-project e-mail address, posting via an official social media account, or acting
-as an appointed representative at an online or offline event. Representation of
-a project may be further defined and clarified by project maintainers.</p>
-</section>
-<section id="enforcement">
-<h2>Enforcement<a class="headerlink" href="#enforcement" title="Permalink to this headline">¶</a></h2>
-<p>Instances of abusive, harassing, or otherwise unacceptable behavior may be
-reported by contacting the project team at <a class="reference external" href="mailto:opensource-conduct&#37;&#52;&#48;fb&#46;com">opensource-conduct<span>&#64;</span>fb<span>&#46;</span>com</a>. All
-complaints will be reviewed and investigated and will result in a response that
-is deemed necessary and appropriate to the circumstances. The project team is
-obligated to maintain confidentiality with regard to the reporter of an incident.
-Further details of specific enforcement policies may be posted separately.</p>
-<p>Project maintainers who do not follow or enforce the Code of Conduct in good
-faith may face temporary or permanent repercussions as determined by other
-members of the project’s leadership.</p>
-</section>
-<section id="attribution">
-<h2>Attribution<a class="headerlink" href="#attribution" title="Permalink to this headline">¶</a></h2>
-<p>This Code of Conduct is adapted from the <a class="reference external" href="https://www.contributor-covenant.org">Contributor Covenant</a>, version 1.4,
-available at https://www.contributor-covenant.org/version/1/4/code-of-conduct.html</p>
-<p>For answers to common questions about this code of conduct, see
-https://www.contributor-covenant.org/faq</p>
-</section>
-</section>
-
-
-             </article>
-             
-            </div>
-            <footer>
-  
-
-  
-
-    <hr>
-
-  
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, FBGEMM Team.
-
-    </p>
-  </div>
-    
-      <div>
-        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
-      </div>
-     
-
-</footer>
-
-          </div>
-        </div>
-
-        <div class="pytorch-content-right" id="pytorch-content-right">
-          <div class="pytorch-right-menu" id="pytorch-right-menu">
-            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
-              <ul>
-<li><a class="reference internal" href="#">Code of Conduct</a><ul>
-<li><a class="reference internal" href="#our-pledge">Our Pledge</a></li>
-<li><a class="reference internal" href="#our-standards">Our Standards</a></li>
-<li><a class="reference internal" href="#our-responsibilities">Our Responsibilities</a></li>
-<li><a class="reference internal" href="#scope">Scope</a></li>
-<li><a class="reference internal" href="#enforcement">Enforcement</a></li>
-<li><a class="reference internal" href="#attribution">Attribution</a></li>
-</ul>
-</li>
-</ul>
-
-            </div>
-          </div>
-        </div>
-      </section>
-    </div>
-
-  
-
-
-  
-
-     
-       <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
-         <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-     
-
-  
-
-  <script type="text/javascript" src="../_static/js/vendor/popper.min.js"></script>
-  <script type="text/javascript" src="../_static/js/vendor/bootstrap.min.js"></script>
-  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
-  <script type="text/javascript" src="../_static/js/theme.js"></script>
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-  <!-- Begin Footer -->
-
-  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
-    <div class="container">
-      <div class="row">
-        <div class="col-md-4 text-center">
-          <h2>Docs</h2>
-          <p>Access comprehensive developer documentation for PyTorch</p>
-          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
-        </div>
-
-        <div class="col-md-4 text-center">
-          <h2>Tutorials</h2>
-          <p>Get in-depth tutorials for beginners and advanced developers</p>
-          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
-        </div>
-
-        <div class="col-md-4 text-center">
-          <h2>Resources</h2>
-          <p>Find development resources and get your questions answered</p>
-          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
-        </div>
-      </div>
-    </div>
-  </div>
-
-  <footer class="site-footer">
-    <div class="container footer-container">
-      <div class="footer-logo-wrapper">
-        <a href="https://pytorch.org/" class="footer-logo"></a>
-      </div>
-
-      <div class="footer-links-wrapper">
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
-            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
-            <li><a href="https://pytorch.org/features">Features</a></li>
-            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
-            <li><a href="https://pytorch.org/blog/">Blog</a></li>
-            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
-          </ul>
-        </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
-            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
-            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
-            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
-            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
-            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
-          </ul>
-        </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title">Stay up to date</li>
-            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
-            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
-            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
-            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
-          </ul>  
-          </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title">PyTorch Podcasts</li>
-            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
-            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
-            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
-            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
-          </ul>
-         </div>
-        </div>
-        
-        <div class="privacy-policy">
-          <ul>
-            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
-            <li class="privacy-policy-links">|</li>
-            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
-          </ul>
-        </div>
-        <div class="copyright">
-        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
-          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
-          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
-          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
-          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
-      </div>
-     </div>
-
-  </footer>
-
-  <div class="cookie-banner-wrapper">
-  <div class="container">
-    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
-    <img class="close-button" src="../_static/images/pytorch-x.svg">
-  </div>
-</div>
-
-  <!-- End Footer -->
-
-  <!-- Begin Mobile Menu -->
-
-  <div class="mobile-main-menu">
-    <div class="container-fluid">
-      <div class="container">
-        <div class="mobile-main-menu-header-container">
-          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
-          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
-        </div>
-      </div>
-    </div>
-
-    <div class="mobile-main-menu-links-container">
-      <div class="main-menu">
-        <ul>
-          <li>
-            <a href="https://pytorch.org/get-started">Get Started</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
-          </li>
-            
-          <li>
-            <a href="">Mobile</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/blog/">Blog</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/tutorials">Tutorials</a>
-          </li>
-
-          <li class="resources-mobile-menu-title">
-            Docs
-          </li>
-
-          <ul class="resources-mobile-menu-items">
-            <li>
-              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/audio/stable/index.html">torchaudio</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/text/stable/index.html">torchtext</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/vision/stable/index.html">torchvision</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torcharrow">torcharrow</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/data">TorchData</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torchrec">TorchRec</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/serve/">TorchServe</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torchx/">TorchX</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/xla">PyTorch on XLA Devices</a>
-            </li>
-          </ul>
-
-          <li class="resources-mobile-menu-title">
-            Resources
-          </li>
-            
-           <ul class="resources-mobile-menu-items">
-
-            <li>
-              <a href="https://pytorch.org/features">About</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/#community-module">Community</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/community-stories">Community Stories</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/resources">Developer Resources</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/events">Events</a>
-            </li>
-
-            <li>
-              <a href="https://discuss.pytorch.org/">Forums</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/hub">Models (Beta)</a>
-            </li>
-          </ul>
-
-          <li>
-            <a href="https://github.com/pytorch/pytorch">Github</a>
-          </li>
-        </ul>
-      </div>
-    </div>
-  </div>
-
-  <!-- End Mobile Menu -->
-
-  <script type="text/javascript" src="../_static/js/vendor/anchor.min.js"></script>
-
-  <script type="text/javascript">
-    $(document).ready(function() {
-      mobileMenu.bind();
-      mobileTOC.bind();
-      pytorchAnchors.bind();
-      sideMenus.bind();
-      scrollToAnchor.bind();
-      highlightNavigation.bind();
-      mainMenuDropdown.bind();
-      filterTags.bind();
-
-      // Add class to links that have code blocks, since we cannot create links in code blocks
-      $("article.pytorch-article a span.pre").each(function(e) {
-        $(this).closest("a").addClass("has-code");
-      });
-    })
-  </script>
-</body>
-</html>
\ No newline at end of file
diff --git a/pytorch-sphinx-theme/CONTRIBUTING.html b/pytorch-sphinx-theme/CONTRIBUTING.html
deleted file mode 100644
index 605db1d24..000000000
--- a/pytorch-sphinx-theme/CONTRIBUTING.html
+++ /dev/null
@@ -1,717 +0,0 @@
-
-
-
-<!DOCTYPE html>
-<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
-<!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
-<head>
-  <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
-
-  <meta name="viewport" content="width=device-width, initial-scale=1.0">
-  
-  <title>Contributing to pytorch_sphinx_theme &mdash; fbgemm 0.1.2 documentation</title>
-  
-
-  
-  
-  
-  
-
-  
-
-  
-  
-    
-
-  
-
-  <link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
-  <!-- <link rel="stylesheet" href="../_static/pygments.css" type="text/css" /> -->
-    <link rel="index" title="Index" href="../genindex.html" />
-    <link rel="search" title="Search" href="../search.html" />
-  <!-- Google Tag Manager -->
-    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
-    new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
-    j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
-    'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
-    })(window,document,'script','dataLayer','UA-117752657-2');</script>
-    <!-- End Google Tag Manager -->
-  
-
-  
-  <script src="../_static/js/modernizr.min.js"></script>
-
-  <!-- Preload the theme fonts -->
-
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-
-<!-- Preload the katex fonts -->
-
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
-  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css" integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
-</head>
-
-<div class="container-fluid header-holder tutorials-header" id="header-holder">
-  <div class="container">
-    <div class="header-container">
-      <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
-
-      <div class="main-menu">
-        <ul>
-          <li>
-            <a href="https://pytorch.org/get-started">Get Started</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
-          </li>
-
-          <li>
-          <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-arrow">
-                Edge
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="nav-dropdown-item" href="https://pytorch.org/edge">
-                  <span class="dropdown-title">About PyTorch Edge</span>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/executorch">
-                  <span class="dropdown-title">ExecuTorch</span>
-                </a>
-              </div>
-            </div>  
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/blog/">Blog</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/tutorials">Tutorials</a>
-          </li>
-
-          <li>
-            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-orange-arrow">
-                Docs
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/docs/stable/index.html">
-                  <span class="dropdown-title">PyTorch</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/audio/stable/index.html">
-                  <span class="dropdown-title">torchaudio</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/text/stable/index.html">
-                  <span class="dropdown-title">torchtext</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/vision/stable/index.html">
-                  <span class="dropdown-title">torchvision</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torcharrow">
-                  <span class="dropdown-title">torcharrow</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/data">
-                  <span class="dropdown-title">TorchData</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchrec">
-                  <span class="dropdown-title">TorchRec</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/serve/">
-                  <span class="dropdown-title">TorchServe</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/torchx/">
-                  <span class="dropdown-title">TorchX</span>
-                  <p></p>
-                </a>
-                <a class="doc-dropdown-option nav-dropdown-item" href="https://pytorch.org/xla">
-                  <span class="dropdown-title">PyTorch on XLA Devices</span>
-                  <p></p>
-                </a>
-            </div>
-          </li>
-
-          <li>
-            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
-              <a class="resource-option with-down-arrow">
-                Resources
-              </a>
-              <div class="resources-dropdown-menu">
-                <a class="nav-dropdown-item" href="https://pytorch.org/features">
-                  <span class="dropdown-title">About</span>
-                  <p>Learn about PyTorch’s features and capabilities</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/foundation">
-                  <span class="dropdown-title">PyTorch Foundation</span>
-                  <p>Learn about the PyTorch foundation</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/#community-module">
-                  <span class="dropdown-title">Community</span>
-                  <p>Join the PyTorch developer community to contribute, learn, and get your questions answered.</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/community-stories">
-                  <span class="dropdown-title">Community Stories</span>
-                  <p>Learn how our community solves real, everyday machine learning problems with PyTorch.</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/resources">
-                  <span class="dropdown-title">Developer Resources</span>
-                  <p>Find resources and get questions answered</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/events">
-                  <span class="dropdown-title">Events</span>
-                  <p>Find events, webinars, and podcasts</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://discuss.pytorch.org/" target="_blank">
-                  <span class="dropdown-title">Forums</span>
-                  <p>A place to discuss PyTorch code, issues, install, research</p>
-                </a>
-                <a class="nav-dropdown-item" href="https://pytorch.org/hub">
-                  <span class="dropdown-title">Models (Beta)</span>
-                  <p>Discover, publish, and reuse pre-trained models</p>
-                </a>
-              </div>
-            </div>
-          </li>
-
-          <li>
-            <a href="https://github.com/pytorch/pytorch">GitHub</a>
-          </li>
-        </ul>
-      </div>
-
-      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
-    </div>
-  </div>
-</div>
-
-<body class="pytorch-body">
-
-   
-
-    
-
-    <div class="table-of-contents-link-wrapper">
-      <span>Table of Contents</span>
-      <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
-    </div>
-
-    <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
-      <div class="pytorch-side-scroll">
-        <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
-          <div class="pytorch-left-menu-search">
-            
-
-            
-              
-              
-            
-
-            
-
-
-  
-
-
-<div role="search">
-  <form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
-    <input type="text" name="q" placeholder="Search Docs" />
-    <input type="hidden" name="check_keywords" value="yes" />
-    <input type="hidden" name="area" value="default" />
-  </form>
-</div>
-
-            
-          </div>
-
-          
-            
-            
-              
-            
-            
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../general/BuildInstructions.html">Build Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/InstallationInstructions.html">Installation Instructions</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
-</ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
-</ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/quantize_ops.html">Quantization Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/merge_pooled_embeddings.html">Pooled Embeddings Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/split_table_batched_embeddings.html">Table Batched Embedding Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/memory_utils.html">CUDA Memory Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/input_combine.html">Combine Input Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/layout_transform_ops.html">Layout Transformation Operators</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../cpp-api/embedding_ops.html">Embedding Operators</a></li>
-</ul>
-
-            
-          
-        </div>
-      </div>
-    </nav>
-
-    <div class="pytorch-container">
-      <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
-        <div class="pytorch-breadcrumbs-wrapper">
-          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-<div role="navigation" aria-label="breadcrumbs navigation">
-
-  <ul class="pytorch-breadcrumbs">
-    
-      <li>
-        <a href="../index.html">
-          
-            Docs
-          
-        </a> &gt;
-      </li>
-
-        
-      <li>Contributing to pytorch_sphinx_theme</li>
-    
-    
-      <li class="pytorch-breadcrumbs-aside">
-        
-            
-            <a href="../_sources/pytorch-sphinx-theme/CONTRIBUTING.md.txt" rel="nofollow"><img src="../_static/images/view-page-source-icon.svg"></a>
-          
-        
-      </li>
-    
-  </ul>
-
-  
-</div>
-        </div>
-
-        <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
-          Shortcuts
-        </div>
-      </div>
-
-      <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
-        <div class="pytorch-content-left">
-
-        
-          <!-- Google Tag Manager (noscript) -->
-          <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=UA-117752657-2"
-          height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
-          <!-- End Google Tag Manager (noscript) -->
-          
-          <div class="rst-content">
-          
-            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
-             <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
-              
-  <section id="contributing-to-pytorch-sphinx-theme">
-<h1>Contributing to pytorch_sphinx_theme<a class="headerlink" href="#contributing-to-pytorch-sphinx-theme" title="Permalink to this headline">¶</a></h1>
-<p>We want to make contributing to this project as easy and transparent as
-possible.</p>
-<section id="pull-requests">
-<h2>Pull Requests<a class="headerlink" href="#pull-requests" title="Permalink to this headline">¶</a></h2>
-<p>We actively welcome your pull requests.</p>
-<ol class="arabic simple">
-<li><p>Fork the repo and create your branch from <code class="docutils literal notranslate"><span class="pre">master</span></code>.</p></li>
-<li><p>If you’ve added code that should be tested, add tests.</p></li>
-<li><p>If you’ve changed APIs, update the documentation.</p></li>
-<li><p>Ensure the test suite passes.</p></li>
-<li><p>Make sure your code lints.</p></li>
-<li><p>If you haven’t already, complete the Contributor License Agreement (“CLA”).</p></li>
-</ol>
-</section>
-<section id="contributor-license-agreement-cla">
-<h2>Contributor License Agreement (“CLA”)<a class="headerlink" href="#contributor-license-agreement-cla" title="Permalink to this headline">¶</a></h2>
-<p>In order to accept your pull request, we need you to submit a CLA. You only need
-to do this once to work on any of Facebook’s open source projects.</p>
-<p>Complete your CLA here: <a class="reference external" href="https://code.facebook.com/cla">https://code.facebook.com/cla</a></p>
-</section>
-<section id="issues">
-<h2>Issues<a class="headerlink" href="#issues" title="Permalink to this headline">¶</a></h2>
-<p>We use GitHub issues to track public bugs. Please ensure your description is
-clear and has sufficient instructions to be able to reproduce the issue.</p>
-<p>Facebook has a <a class="reference external" href="https://www.facebook.com/whitehat/">bounty program</a> for the safe
-disclosure of security bugs. In those cases, please go through the process
-outlined on that page and do not file a public issue.</p>
-</section>
-<section id="license">
-<h2>License<a class="headerlink" href="#license" title="Permalink to this headline">¶</a></h2>
-<p>By contributing to pytorch_sphinx_theme, you agree that your contributions will be licensed
-under the LICENSE file in the root directory of this source tree.</p>
-</section>
-</section>
-
-
-             </article>
-             
-            </div>
-            <footer>
-  
-
-  
-
-    <hr>
-
-  
-
-  <div role="contentinfo">
-    <p>
-        &copy; Copyright 2023, FBGEMM Team.
-
-    </p>
-  </div>
-    
-      <div>
-        Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the Docs</a>.
-      </div>
-     
-
-</footer>
-
-          </div>
-        </div>
-
-        <div class="pytorch-content-right" id="pytorch-content-right">
-          <div class="pytorch-right-menu" id="pytorch-right-menu">
-            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
-              <ul>
-<li><a class="reference internal" href="#">Contributing to pytorch_sphinx_theme</a><ul>
-<li><a class="reference internal" href="#pull-requests">Pull Requests</a></li>
-<li><a class="reference internal" href="#contributor-license-agreement-cla">Contributor License Agreement (“CLA”)</a></li>
-<li><a class="reference internal" href="#issues">Issues</a></li>
-<li><a class="reference internal" href="#license">License</a></li>
-</ul>
-</li>
-</ul>
-
-            </div>
-          </div>
-        </div>
-      </section>
-    </div>
-
-  
-
-
-  
-
-     
-       <script type="text/javascript" id="documentation_options" data-url_root="../" src="../_static/documentation_options.js"></script>
-         <script src="../_static/jquery.js"></script>
-         <script src="../_static/underscore.js"></script>
-         <script src="../_static/doctools.js"></script>
-         <script src="../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
-     
-
-  
-
-  <script type="text/javascript" src="../_static/js/vendor/popper.min.js"></script>
-  <script type="text/javascript" src="../_static/js/vendor/bootstrap.min.js"></script>
-  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
-  <script type="text/javascript" src="../_static/js/theme.js"></script>
-
-  <script type="text/javascript">
-      jQuery(function () {
-          SphinxRtdTheme.Navigation.enable(true);
-      });
-  </script> 
-
-  <!-- Begin Footer -->
-
-  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
-    <div class="container">
-      <div class="row">
-        <div class="col-md-4 text-center">
-          <h2>Docs</h2>
-          <p>Access comprehensive developer documentation for PyTorch</p>
-          <a class="with-right-arrow" href="https://pytorch.org/docs/stable/index.html">View Docs</a>
-        </div>
-
-        <div class="col-md-4 text-center">
-          <h2>Tutorials</h2>
-          <p>Get in-depth tutorials for beginners and advanced developers</p>
-          <a class="with-right-arrow" href="https://pytorch.org/tutorials">View Tutorials</a>
-        </div>
-
-        <div class="col-md-4 text-center">
-          <h2>Resources</h2>
-          <p>Find development resources and get your questions answered</p>
-          <a class="with-right-arrow" href="https://pytorch.org/resources">View Resources</a>
-        </div>
-      </div>
-    </div>
-  </div>
-
-  <footer class="site-footer">
-    <div class="container footer-container">
-      <div class="footer-logo-wrapper">
-        <a href="https://pytorch.org/" class="footer-logo"></a>
-      </div>
-
-      <div class="footer-links-wrapper">
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title"><a href="https://pytorch.org/">PyTorch</a></li>
-            <li><a href="https://pytorch.org/get-started">Get Started</a></li>
-            <li><a href="https://pytorch.org/features">Features</a></li>
-            <li><a href="https://pytorch.org/ecosystem">Ecosystem</a></li>
-            <li><a href="https://pytorch.org/blog/">Blog</a></li>
-            <li><a href="https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md">Contributing</a></li>
-          </ul>
-        </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title"><a href="https://pytorch.org/resources">Resources</a></li>
-            <li><a href="https://pytorch.org/tutorials">Tutorials</a></li>
-            <li><a href="https://pytorch.org/docs/stable/index.html">Docs</a></li>
-            <li><a href="https://discuss.pytorch.org" target="_blank">Discuss</a></li>
-            <li><a href="https://github.com/pytorch/pytorch/issues" target="_blank">Github Issues</a></li>
-            <li><a href="https://pytorch.org/assets/brand-guidelines/PyTorch-Brand-Guidelines.pdf" target="_blank">Brand Guidelines</a></li>
-          </ul>
-        </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title">Stay up to date</li>
-            <li><a href="https://www.facebook.com/pytorch" target="_blank">Facebook</a></li>
-            <li><a href="https://twitter.com/pytorch" target="_blank">Twitter</a></li>
-            <li><a href="https://www.youtube.com/pytorch" target="_blank">YouTube</a></li>
-            <li><a href="https://www.linkedin.com/company/pytorch" target="_blank">LinkedIn</a></li>
-          </ul>  
-          </div>
-
-        <div class="footer-links-col">
-          <ul>
-            <li class="list-title">PyTorch Podcasts</li>
-            <li><a href="https://open.spotify.com/show/6UzHKeiy368jKfQMKKvJY5" target="_blank">Spotify</a></li>
-            <li><a href="https://podcasts.apple.com/us/podcast/pytorch-developer-podcast/id1566080008" target="_blank">Apple</a></li>
-            <li><a href="https://www.google.com/podcasts?feed=aHR0cHM6Ly9mZWVkcy5zaW1wbGVjYXN0LmNvbS9PQjVGa0lsOA%3D%3D" target="_blank">Google</a></li>
-            <li><a href="https://music.amazon.com/podcasts/7a4e6f0e-26c2-49e9-a478-41bd244197d0/PyTorch-Developer-Podcast?" target="_blank">Amazon</a></li>
-          </ul>
-         </div>
-        </div>
-        
-        <div class="privacy-policy">
-          <ul>
-            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/terms/" target="_blank">Terms</a></li>
-            <li class="privacy-policy-links">|</li>
-            <li class="privacy-policy-links"><a href="https://www.linuxfoundation.org/privacy-policy/" target="_blank">Privacy</a></li>
-          </ul>
-        </div>
-        <div class="copyright">
-        <p>© Copyright The Linux Foundation. The PyTorch Foundation is a project of The Linux Foundation.
-          For web site terms of use, trademark policy and other policies applicable to The PyTorch Foundation please see
-          <a href="https://www.linuxfoundation.org/policies/">www.linuxfoundation.org/policies/</a>. The PyTorch Foundation supports the PyTorch open source
-          project, which has been established as PyTorch Project a Series of LF Projects, LLC. For policies applicable to the PyTorch Project a Series of LF Projects, LLC,
-          please see <a href="https://www.lfprojects.org/policies/">www.lfprojects.org/policies/</a>.</p>
-      </div>
-     </div>
-
-  </footer>
-
-  <div class="cookie-banner-wrapper">
-  <div class="container">
-    <p class="gdpr-notice">To analyze traffic and optimize your experience, we serve cookies on this site. By clicking or navigating, you agree to allow our usage of cookies. As the current maintainers of this site, Facebook’s Cookies Policy applies. Learn more, including about available controls: <a href="https://www.facebook.com/policies/cookies/">Cookies Policy</a>.</p>
-    <img class="close-button" src="../_static/images/pytorch-x.svg">
-  </div>
-</div>
-
-  <!-- End Footer -->
-
-  <!-- Begin Mobile Menu -->
-
-  <div class="mobile-main-menu">
-    <div class="container-fluid">
-      <div class="container">
-        <div class="mobile-main-menu-header-container">
-          <a class="header-logo" href="https://pytorch.org/" aria-label="PyTorch"></a>
-          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
-        </div>
-      </div>
-    </div>
-
-    <div class="mobile-main-menu-links-container">
-      <div class="main-menu">
-        <ul>
-          <li>
-            <a href="https://pytorch.org/get-started">Get Started</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/ecosystem">Ecosystem</a>
-          </li>
-            
-          <li>
-            <a href="">Mobile</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/blog/">Blog</a>
-          </li>
-
-          <li>
-            <a href="https://pytorch.org/tutorials">Tutorials</a>
-          </li>
-
-          <li class="resources-mobile-menu-title">
-            Docs
-          </li>
-
-          <ul class="resources-mobile-menu-items">
-            <li>
-              <a href="https://pytorch.org/docs/stable/index.html">PyTorch</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/audio/stable/index.html">torchaudio</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/text/stable/index.html">torchtext</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/vision/stable/index.html">torchvision</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torcharrow">torcharrow</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/data">TorchData</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torchrec">TorchRec</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/serve/">TorchServe</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/torchx/">TorchX</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/xla">PyTorch on XLA Devices</a>
-            </li>
-          </ul>
-
-          <li class="resources-mobile-menu-title">
-            Resources
-          </li>
-            
-           <ul class="resources-mobile-menu-items">
-
-            <li>
-              <a href="https://pytorch.org/features">About</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/foundation">PyTorch Foundation</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/#community-module">Community</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/community-stories">Community Stories</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/resources">Developer Resources</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/events">Events</a>
-            </li>
-
-            <li>
-              <a href="https://discuss.pytorch.org/">Forums</a>
-            </li>
-
-            <li>
-              <a href="https://pytorch.org/hub">Models (Beta)</a>
-            </li>
-          </ul>
-
-          <li>
-            <a href="https://github.com/pytorch/pytorch">Github</a>
-          </li>
-        </ul>
-      </div>
-    </div>
-  </div>
-
-  <!-- End Mobile Menu -->
-
-  <script type="text/javascript" src="../_static/js/vendor/anchor.min.js"></script>
-
-  <script type="text/javascript">
-    $(document).ready(function() {
-      mobileMenu.bind();
-      mobileTOC.bind();
-      pytorchAnchors.bind();
-      sideMenus.bind();
-      scrollToAnchor.bind();
-      highlightNavigation.bind();
-      mainMenuDropdown.bind();
-      filterTags.bind();
-
-      // Add class to links that have code blocks, since we cannot create links in code blocks
-      $("article.pytorch-article a span.pre").each(function(e) {
-        $(this).closest("a").addClass("has-code");
-      });
-    })
-  </script>
-</body>
-</html>
\ No newline at end of file
diff --git a/pytorch-sphinx-theme/docs/changelog.html b/pytorch-sphinx-theme/docs/changelog.html
index 439ee040a..5fd14c339 100644
--- a/pytorch-sphinx-theme/docs/changelog.html
+++ b/pytorch-sphinx-theme/docs/changelog.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,7 +352,7 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="changelog">
-<h1>Changelog<a class="headerlink" href="#changelog" title="Permalink to this headline">¶</a></h1>
+<h1>Changelog<a class="headerlink" href="#changelog" title="Permalink to this heading">¶</a></h1>
 <p>v0.0.1</p>
 </section>
 
@@ -403,11 +406,9 @@ <h1>Changelog<a class="headerlink" href="#changelog" title="Permalink to this he
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../" src="../../_static/documentation_options.js"></script>
-         <script src="../../_static/jquery.js"></script>
-         <script src="../../_static/underscore.js"></script>
+         <script data-url_root="../../" id="documentation_options" src="../../_static/documentation_options.js"></script>
          <script src="../../_static/doctools.js"></script>
-         <script src="../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/configuring.html b/pytorch-sphinx-theme/docs/configuring.html
index 3f34c5fd3..50a7463fc 100644
--- a/pytorch-sphinx-theme/docs/configuring.html
+++ b/pytorch-sphinx-theme/docs/configuring.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,12 +352,12 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="configuration">
-<h1>Configuration<a class="headerlink" href="#configuration" title="Permalink to this headline">¶</a></h1>
+<h1>Configuration<a class="headerlink" href="#configuration" title="Permalink to this heading">¶</a></h1>
 <p>You can configure different parts of the theme.</p>
 <section id="project-wide-configuration">
-<h2>Project-wide Configuration<a class="headerlink" href="#project-wide-configuration" title="Permalink to this headline">¶</a></h2>
+<h2>Project-wide Configuration<a class="headerlink" href="#project-wide-configuration" title="Permalink to this heading">¶</a></h2>
 <section id="html-theme-options">
-<h3>HTML Theme Options<a class="headerlink" href="#html-theme-options" title="Permalink to this headline">¶</a></h3>
+<h3>HTML Theme Options<a class="headerlink" href="#html-theme-options" title="Permalink to this heading">¶</a></h3>
 <p>The theme’s project-wide options are defined in the <code class="docutils literal notranslate"><span class="pre">pytorch_sphinx_theme/theme.conf</span></code>
 file of this repository, and can be defined in your project’s <code class="docutils literal notranslate"><span class="pre">conf.py</span></code> via
 <code class="docutils literal notranslate"><span class="pre">html_theme_options</span></code>. For example:</p>
@@ -377,7 +380,7 @@ <h3>HTML Theme Options<a class="headerlink" href="#html-theme-options" title="Pe
 </div>
 <p>The following options are available:</p>
 <section id="base-options">
-<h4>Base options<a class="headerlink" href="#base-options" title="Permalink to this headline">¶</a></h4>
+<h4>Base options<a class="headerlink" href="#base-options" title="Permalink to this heading">¶</a></h4>
 <ul class="simple">
 <li><p><code class="docutils literal notranslate"><span class="pre">canonical_url</span></code> String. This will specify a <a class="reference external" href="https://en.wikipedia.org/wiki/Canonical_link_element">canonical url</a>
 to let search engines know they should give higher ranking to latest version of the docs.
@@ -393,7 +396,7 @@ <h4>Base options<a class="headerlink" href="#base-options" title="Permalink to t
 </ul>
 </section>
 <section id="toc-options">
-<h4>TOC Options<a class="headerlink" href="#toc-options" title="Permalink to this headline">¶</a></h4>
+<h4>TOC Options<a class="headerlink" href="#toc-options" title="Permalink to this heading">¶</a></h4>
 <p>These effect how we display the Table of Contents in the side bar. You can read more about them here: <a class="reference external" href="http://www.sphinx-doc.org/en/stable/templating.html#toctree">http://www.sphinx-doc.org/en/stable/templating.html#toctree</a></p>
 <ul class="simple">
 <li><p><code class="docutils literal notranslate"><span class="pre">collapse_navigation</span></code> Bool. With this enabled, you will lose the <code class="docutils literal notranslate"><span class="pre">[+]</span></code> drop downs next to each section in the sidebar.</p></li>
@@ -412,12 +415,12 @@ <h4>TOC Options<a class="headerlink" href="#toc-options" title="Permalink to thi
 </section>
 </section>
 <section id="html-context-options">
-<h3>HTML Context Options<a class="headerlink" href="#html-context-options" title="Permalink to this headline">¶</a></h3>
+<h3>HTML Context Options<a class="headerlink" href="#html-context-options" title="Permalink to this heading">¶</a></h3>
 <p>TODO.</p>
 </section>
 </section>
 <section id="page-level-configuration">
-<h2>Page-level Configuration<a class="headerlink" href="#page-level-configuration" title="Permalink to this headline">¶</a></h2>
+<h2>Page-level Configuration<a class="headerlink" href="#page-level-configuration" title="Permalink to this heading">¶</a></h2>
 <p>Pages support metadata that changes how the theme renders.
 You can currently add the following:</p>
 <ul class="simple">
@@ -427,7 +430,7 @@ <h2>Page-level Configuration<a class="headerlink" href="#page-level-configuratio
 </ul>
 </section>
 <section id="how-the-table-of-contents-builds">
-<h2>How the Table of Contents builds<a class="headerlink" href="#how-the-table-of-contents-builds" title="Permalink to this headline">¶</a></h2>
+<h2>How the Table of Contents builds<a class="headerlink" href="#how-the-table-of-contents-builds" title="Permalink to this heading">¶</a></h2>
 <p>Currently the left menu will build based upon any <code class="docutils literal notranslate"><span class="pre">toctree(s)</span></code> defined in your <code class="docutils literal notranslate"><span class="pre">index.rst</span></code> file.
 It outputs 2 levels of depth, which should give your visitors a high level of access to your
 docs. If no toctrees are set the theme reverts to sphinx’s usual local toctree.</p>
@@ -506,11 +509,9 @@ <h2>How the Table of Contents builds<a class="headerlink" href="#how-the-table-o
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../" src="../../_static/documentation_options.js"></script>
-         <script src="../../_static/jquery.js"></script>
-         <script src="../../_static/underscore.js"></script>
+         <script data-url_root="../../" id="documentation_options" src="../../_static/documentation_options.js"></script>
          <script src="../../_static/doctools.js"></script>
-         <script src="../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/demo/api.html b/pytorch-sphinx-theme/docs/demo/api.html
index 4501c4ffb..5358b8a47 100644
--- a/pytorch-sphinx-theme/docs/demo/api.html
+++ b/pytorch-sphinx-theme/docs/demo/api.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,8 +352,8 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="mod-test-py-module">
-<h1><a class="toc-backref" href="#id5"><span class="section-number">5. </span><a href="#id1"><span class="problematic" id="id2">:mod:`test_py_module`</span></a></a><a class="headerlink" href="#mod-test-py-module" title="Permalink to this headline">¶</a></h1>
-<div class="contents topic" id="table-of-contents">
+<h1><a class="toc-backref" href="#id5" role="doc-backlink"><span class="section-number">5. </span><a href="#id1"><span class="problematic" id="id2">:mod:`test_py_module`</span></a></a><a class="headerlink" href="#mod-test-py-module" title="Permalink to this heading">¶</a></h1>
+<nav class="contents" id="table-of-contents">
 <p class="topic-title">Table of Contents</p>
 <ul class="simple">
 <li><p><a class="reference internal" href="#mod-test-py-module" id="id5">:mod:`test_py_module`</a></p>
@@ -361,37 +364,43 @@ <h1><a class="toc-backref" href="#id5"><span class="section-number">5. </span><a
 </ul>
 </li>
 </ul>
-</div>
+</nav>
 <section id="generated-index">
-<h2><a class="toc-backref" href="#id6"><span class="section-number">5.1. </span>Generated Index</a><a class="headerlink" href="#generated-index" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id6" role="doc-backlink"><span class="section-number">5.1. </span>Generated Index</a><a class="headerlink" href="#generated-index" title="Permalink to this heading">¶</a></h2>
 <p>Part of the sphinx build process in generate and index file: <a class="reference internal" href="../../../genindex.html"><span class="std std-ref">Index</span></a>.</p>
 </section>
 <section id="optional-parameter-args">
-<h2><a class="toc-backref" href="#id7"><span class="section-number">5.2. </span>Optional parameter args</a><a class="headerlink" href="#optional-parameter-args" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id7" role="doc-backlink"><span class="section-number">5.2. </span>Optional parameter args</a><a class="headerlink" href="#optional-parameter-args" title="Permalink to this heading">¶</a></h2>
 <p>At this point optional parameters <a class="reference external" href="https://groups.google.com/forum/#!topic/sphinx-users/_qfsVT5Vxpw">cannot be generated from code</a>.
 However, some projects will manually do it, like so:</p>
 <p>This example comes from <a class="reference external" href="http://django-payments.readthedocs.org/en/latest/modules.html#payments.authorizenet.AuthorizeNetProvide">django-payments module docs</a>.</p>
 <dl class="cpp class">
-<dt>
-<code class="sig-name descname">payments.dotpay.DotpayProvider(seller_id, pin[, channel=0[, lock=False], lang='pl'])</code></dt>
+<dt class="sig sig-object cpp">
+<span class="sig-name descname"><span class="pre">payments.dotpay.DotpayProvider(seller_id,</span> <span class="pre">pin[,</span> <span class="pre">channel=0[,</span> <span class="pre">lock=False],</span> <span class="pre">lang='pl'])</span></span></dt>
 <dd><p>This backend implements payments using a popular Polish gateway, <a class="reference external" href="http://www.dotpay.pl">Dotpay.pl</a>.</p>
 <p>Due to API limitations there is no support for transferring purchased items.</p>
 <dl class="field-list simple">
-<dt class="field-odd">Parameters</dt>
-<dd class="field-odd"><ul class="simple">
-<li><p><strong>seller_id</strong> – Seller ID assigned by Dotpay</p></li>
-<li><p><strong>pin</strong> – PIN assigned by Dotpay</p></li>
-<li><p><strong>channel</strong> – Default payment channel (consult reference guide)</p></li>
-<li><p><strong>lang</strong> – UI language</p></li>
-<li><p><strong>lock</strong> – Whether to disable channels other than the default selected above</p></li>
-</ul>
+<dt class="field-odd">Param seller_id<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Seller ID assigned by Dotpay</p>
+</dd>
+<dt class="field-even">Param pin<span class="colon">:</span></dt>
+<dd class="field-even"><p>PIN assigned by Dotpay</p>
+</dd>
+<dt class="field-odd">Param channel<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Default payment channel (consult reference guide)</p>
+</dd>
+<dt class="field-even">Param lang<span class="colon">:</span></dt>
+<dd class="field-even"><p>UI language</p>
+</dd>
+<dt class="field-odd">Param lock<span class="colon">:</span></dt>
+<dd class="field-odd"><p>Whether to disable channels other than the default selected above</p>
 </dd>
 </dl>
 </dd></dl>
 
 </section>
 <section id="data">
-<h2><a class="toc-backref" href="#id8"><span class="section-number">5.3. </span>Data</a><a class="headerlink" href="#data" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id8" role="doc-backlink"><span class="section-number">5.3. </span>Data</a><a class="headerlink" href="#data" title="Permalink to this heading">¶</a></h2>
 <p>Some data link <a href="#id3"><span class="problematic" id="id4">:data:`Data_item_1`</span></a>.</p>
 </section>
 </section>
@@ -451,11 +460,9 @@ <h2><a class="toc-backref" href="#id8"><span class="section-number">5.3. </span>
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-         <script src="../../../_static/jquery.js"></script>
-         <script src="../../../_static/underscore.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
          <script src="../../../_static/doctools.js"></script>
-         <script src="../../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/demo/demo.html b/pytorch-sphinx-theme/docs/demo/demo.html
index 2832dc541..ac5697315 100644
--- a/pytorch-sphinx-theme/docs/demo/demo.html
+++ b/pytorch-sphinx-theme/docs/demo/demo.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 <meta content="reStructuredText, demonstration, demo, parser" name="keywords" />
 <meta content="A demonstration of the reStructuredText markup language, containing examples of all basic constructs and many advanced constructs." lang="en" name="description" xml:lang="en" />
 
@@ -30,6 +30,8 @@
 
   <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
   <!-- Google Tag Manager -->
@@ -252,18 +254,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -351,8 +354,8 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="paragraph-level-markup">
-<h1><a class="toc-backref" href="#id33"><span class="section-number">3. </span>Paragraph Level Markup</a><a class="headerlink" href="#paragraph-level-markup" title="Permalink to this headline">¶</a></h1>
-<div class="contents topic" id="table-of-contents">
+<h1><a class="toc-backref" href="#id33" role="doc-backlink"><span class="section-number">3. </span>Paragraph Level Markup</a><a class="headerlink" href="#paragraph-level-markup" title="Permalink to this heading">¶</a></h1>
+<nav class="contents" id="table-of-contents">
 <p class="topic-title">Table of Contents</p>
 <ul class="simple">
 <li><p><a class="reference internal" href="#paragraph-level-markup" id="id33">Paragraph Level Markup</a></p>
@@ -407,26 +410,26 @@ <h1><a class="toc-backref" href="#id33"><span class="section-number">3. </span>P
 </ul>
 </li>
 </ul>
-</div>
+</nav>
 <section id="inline-markup">
-<h2><a class="toc-backref" href="#id34"><span class="section-number">3.1. </span>Inline Markup</a><a class="headerlink" href="#inline-markup" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id34" role="doc-backlink"><span class="section-number">3.1. </span>Inline Markup</a><a class="headerlink" href="#inline-markup" title="Permalink to this heading">¶</a></h2>
 <p>Paragraphs contain text and may contain inline markup: <em>emphasis</em>, <strong>strong emphasis</strong>, <code class="docutils literal notranslate"><span class="pre">inline</span> <span class="pre">literals</span></code>,
-standalone hyperlinks (<a class="reference external" href="http://www.python.org">http://www.python.org</a>), external hyperlinks (<a class="reference external" href="http://www.python.org/">Python</a> <a class="footnote-reference brackets" href="#id29" id="id30">5</a>), internal cross-references (<a class="reference internal" href="#example">example</a>),
+standalone hyperlinks (<a class="reference external" href="http://www.python.org">http://www.python.org</a>), external hyperlinks (<a class="reference external" href="http://www.python.org/">Python</a> <a class="footnote-reference brackets" href="#id29" id="id30" role="doc-noteref"><span class="fn-bracket">[</span>5<span class="fn-bracket">]</span></a>), internal cross-references (<a class="reference internal" href="#example">example</a>),
 external hyperlinks with embedded URIs (<a class="reference external" href="http://www.python.org">Python web site</a>), footnote references
-(manually numbered <a class="footnote-reference brackets" href="#id6" id="id1">1</a>, anonymous auto-numbered <a class="footnote-reference brackets" href="#id9" id="id2">3</a>, labeled auto-numbered <a class="footnote-reference brackets" href="#label" id="id3">2</a>, or symbolic <a class="footnote-reference brackets" href="#id10" id="id4">*</a>),
-citation references (<a class="footnote-reference brackets" href="#id16" id="id5">12</a>), substitution references (<a class="reference internal" href="../../../_images/yi_jing_01_chien.jpg"><img alt="EXAMPLE" src="../../../_images/yi_jing_01_chien.jpg" style="width: 1em;" /></a>), and <span class="target" id="inline-hyperlink-targets">inline hyperlink targets</span>
+(manually numbered <a class="footnote-reference brackets" href="#id6" id="id1" role="doc-noteref"><span class="fn-bracket">[</span>1<span class="fn-bracket">]</span></a>, anonymous auto-numbered <a class="footnote-reference brackets" href="#id9" id="id2" role="doc-noteref"><span class="fn-bracket">[</span>3<span class="fn-bracket">]</span></a>, labeled auto-numbered <a class="footnote-reference brackets" href="#label" id="id3" role="doc-noteref"><span class="fn-bracket">[</span>2<span class="fn-bracket">]</span></a>, or symbolic <a class="footnote-reference brackets" href="#id10" id="id4" role="doc-noteref"><span class="fn-bracket">[</span>*<span class="fn-bracket">]</span></a>),
+citation references (<a class="footnote-reference brackets" href="#id16" id="id5" role="doc-noteref"><span class="fn-bracket">[</span>12<span class="fn-bracket">]</span></a>), substitution references (<a class="reference internal" href="../../../_images/yi_jing_01_chien.jpg"><img alt="EXAMPLE" src="../../../_images/yi_jing_01_chien.jpg" style="width: 1em;" /></a>), and <span class="target" id="inline-hyperlink-targets">inline hyperlink targets</span>
 (see <a class="reference internal" href="#targets">Targets</a> below for a reference back to here). Character-level inline markup is also possible
 (although exceedingly ugly!) in <em>re</em><code class="docutils literal notranslate"><span class="pre">Structured</span></code><em>Text</em>. Problems are indicated by <a href="#id27"><span class="problematic" id="id28">|problematic|</span></a>
 text (generated by processing errors; this one is intentional).</p>
 <p>Also with <code class="docutils literal notranslate"><span class="pre">sphinx.ext.autodoc</span></code>, which I use in the demo, I can link to <code class="xref cpp cpp-class docutils literal notranslate"><span class="pre">test_py_module.test.Foo</span></code>.
 It will link you right my code documentation for it.</p>
 <p>The default role for interpreted text is <cite>Title Reference</cite>.  Here are some explicit interpreted text roles:
-a PEP reference (<span class="target" id="index-0"></span><a class="pep reference external" href="https://www.python.org/dev/peps/pep-0287"><strong>PEP 287</strong></a>); an RFC reference (<span class="target" id="index-1"></span><a class="rfc reference external" href="https://tools.ietf.org/html/rfc2822.html"><strong>RFC 2822</strong></a>); a <sub>subscript</sub>; a <sup>superscript</sup>;
+a PEP reference (<span class="target" id="index-0"></span><a class="pep reference external" href="https://peps.python.org/pep-0287/"><strong>PEP 287</strong></a>); an RFC reference (<span class="target" id="index-1"></span><a class="rfc reference external" href="https://datatracker.ietf.org/doc/html/rfc2822.html"><strong>RFC 2822</strong></a>); a <sub>subscript</sub>; a <sup>superscript</sup>;
 and explicit roles for <em>standard</em> <strong>inline</strong> <code class="docutils literal notranslate"><span class="pre">markup</span></code>.</p>
 <p>GUI labels are a useful way to indicate that <span class="guilabel">Some action</span> is to be taken by the user.
 The GUI label should not run over <code class="docutils literal notranslate"><span class="pre">line-height</span></code> so as not to <span class="guilabel">interfere</span> with text from adjacent lines.</p>
 <p>Key-bindings indicate that the read is to press a button on the keyboard or mouse,
-for example <kbd class="kbd docutils literal notranslate">MMB</kbd> and <kbd class="kbd docutils literal notranslate"><kbd class="kbd docutils literal notranslate">Shift</kbd>-<kbd class="kbd docutils literal notranslate">MMB</kbd></kbd>. Another useful markup to indicate a user action
+for example <kbd class="kbd docutils literal notranslate">MMB</kbd> and <kbd class="kbd compound docutils literal notranslate"><kbd class="kbd docutils literal notranslate">Shift</kbd>-<kbd class="kbd docutils literal notranslate">MMB</kbd></kbd>. Another useful markup to indicate a user action
 is to use <code class="docutils literal notranslate"><span class="pre">menuselection</span></code> this can be used to show short and long menus in software.
 For example, and <code class="docutils literal notranslate"><span class="pre">menuselection</span></code> can be seen here that breaks is too long to fit on this line.
 <span class="menuselection">My ‣ Software ‣ Some menu ‣ Some sub menu 1 ‣ sub menu 2</span>.</p>
@@ -439,7 +442,7 @@ <h2><a class="toc-backref" href="#id34"><span class="section-number">3.1. </span
 <p>If the <code class="docutils literal notranslate"><span class="pre">--pep-references</span></code> option was supplied, there should be a live link to PEP 258 here.</p>
 </section>
 <section id="math">
-<h2><a class="toc-backref" href="#id35"><span class="section-number">3.2. </span>Math</a><a class="headerlink" href="#math" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id35" role="doc-backlink"><span class="section-number">3.2. </span>Math</a><a class="headerlink" href="#math" title="Permalink to this heading">¶</a></h2>
 <p>This is a test. Here is an equation:
 <span class="math notranslate nohighlight">\(X_{0:5} = (X_0, X_1, X_2, X_3, X_4)\)</span>.
 Here is another:</p>
@@ -453,12 +456,12 @@ <h2><a class="toc-backref" href="#id35"><span class="section-number">3.2. </span
 <p>You can add a link to equations like the one above <a class="reference internal" href="#equation-this-is-a-label">(1)</a> by using <code class="docutils literal notranslate"><span class="pre">:eq:</span></code>.</p>
 </section>
 <section id="meta">
-<h2><a class="toc-backref" href="#id36"><span class="section-number">3.3. </span>Meta</a><a class="headerlink" href="#meta" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id36" role="doc-backlink"><span class="section-number">3.3. </span>Meta</a><a class="headerlink" href="#meta" title="Permalink to this heading">¶</a></h2>
 </section>
 <section id="blocks">
-<h2><a class="toc-backref" href="#id37"><span class="section-number">3.4. </span>Blocks</a><a class="headerlink" href="#blocks" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id37" role="doc-backlink"><span class="section-number">3.4. </span>Blocks</a><a class="headerlink" href="#blocks" title="Permalink to this heading">¶</a></h2>
 <section id="literal-blocks">
-<h3><a class="toc-backref" href="#id38"><span class="section-number">3.4.1. </span>Literal Blocks</a><a class="headerlink" href="#literal-blocks" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id38" role="doc-backlink"><span class="section-number">3.4.1. </span>Literal Blocks</a><a class="headerlink" href="#literal-blocks" title="Permalink to this heading">¶</a></h3>
 <p>Literal blocks are indicated with a double-colon (“::”) at the end of
 the preceding paragraph (over there <code class="docutils literal notranslate"><span class="pre">--&gt;</span></code>).  They can be indented:</p>
 <div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span>if literal_block:
@@ -475,7 +478,7 @@ <h3><a class="toc-backref" href="#id38"><span class="section-number">3.4.1. </sp
 </div>
 </section>
 <section id="line-blocks">
-<h3><a class="toc-backref" href="#id39"><span class="section-number">3.4.2. </span>Line Blocks</a><a class="headerlink" href="#line-blocks" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id39" role="doc-backlink"><span class="section-number">3.4.2. </span>Line Blocks</a><a class="headerlink" href="#line-blocks" title="Permalink to this heading">¶</a></h3>
 <div class="line-block">
 <div class="line">This is a line block.  It ends with a blank line.</div>
 <div class="line-block">
@@ -524,7 +527,7 @@ <h3><a class="toc-backref" href="#id39"><span class="section-number">3.4.2. </sp
 </div></blockquote>
 </section>
 <section id="block-quotes">
-<h3><a class="toc-backref" href="#id40"><span class="section-number">3.4.3. </span>Block Quotes</a><a class="headerlink" href="#block-quotes" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id40" role="doc-backlink"><span class="section-number">3.4.3. </span>Block Quotes</a><a class="headerlink" href="#block-quotes" title="Permalink to this heading">¶</a></h3>
 <p>Block quotes consist of indented body elements:</p>
 <blockquote>
 <div><p>My theory by A. Elk.  Brackets Miss, brackets.  This theory goes
@@ -536,7 +539,7 @@ <h3><a class="toc-backref" href="#id40"><span class="section-number">3.4.3. </sp
 </div></blockquote>
 </section>
 <section id="doctest-blocks">
-<h3><a class="toc-backref" href="#id41"><span class="section-number">3.4.4. </span>Doctest Blocks</a><a class="headerlink" href="#doctest-blocks" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id41" role="doc-backlink"><span class="section-number">3.4.4. </span>Doctest Blocks</a><a class="headerlink" href="#doctest-blocks" title="Permalink to this heading">¶</a></h3>
 <div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span> <span class="s1">&#39;Python-specific usage examples; begun with &quot;&gt;&gt;&gt;&quot;&#39;</span>
 <span class="go">Python-specific usage examples; begun with &quot;&gt;&gt;&gt;&quot;</span>
 <span class="gp">&gt;&gt;&gt; </span><span class="nb">print</span> <span class="s1">&#39;(cut and pasted from interactive Python sessions)&#39;</span>
@@ -545,7 +548,7 @@ <h3><a class="toc-backref" href="#id41"><span class="section-number">3.4.4. </sp
 </div>
 </section>
 <section id="code-blocks">
-<h3><a class="toc-backref" href="#id42"><span class="section-number">3.4.5. </span>Code Blocks</a><a class="headerlink" href="#code-blocks" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id42" role="doc-backlink"><span class="section-number">3.4.5. </span>Code Blocks</a><a class="headerlink" href="#code-blocks" title="Permalink to this heading">¶</a></h3>
 <pre class="literal-block"># parsed-literal test
 curl -O <a class="reference external" href="http://someurl/release">http://someurl/release</a>-.tar-gz</pre>
 <div class="literal-block-wrapper docutils container" id="id23">
@@ -574,23 +577,19 @@ <h3><a class="toc-backref" href="#id42"><span class="section-number">3.4.5. </sp
 </div>
 </div>
 <section id="emphasized-lines-with-line-numbers">
-<h4><a class="toc-backref" href="#id43"><span class="section-number">3.4.5.1. </span>Emphasized lines with line numbers</a><a class="headerlink" href="#emphasized-lines-with-line-numbers" title="Permalink to this headline">¶</a></h4>
-<div class="highlight-python notranslate"><div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span class="normal">1</span>
-<span class="normal">2</span>
-<span class="normal">3</span>
-<span class="normal">4</span>
-<span class="normal">5</span></pre></div></td><td class="code"><div><pre><span></span><span class="k">def</span> <span class="nf">some_function</span><span class="p">():</span>
-    <span class="n">interesting</span> <span class="o">=</span> <span class="kc">False</span>
-<span class="hll">    <span class="nb">print</span> <span class="s1">&#39;This line is highlighted.&#39;</span>
-</span>    <span class="nb">print</span> <span class="s1">&#39;This one is not...&#39;</span>
-<span class="hll">    <span class="nb">print</span> <span class="s1">&#39;...but this one is.&#39;</span>
-</span></pre></div></td></tr></table></div>
+<h4><a class="toc-backref" href="#id43" role="doc-backlink"><span class="section-number">3.4.5.1. </span>Emphasized lines with line numbers</a><a class="headerlink" href="#emphasized-lines-with-line-numbers" title="Permalink to this heading">¶</a></h4>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="linenos">1</span><span class="k">def</span> <span class="nf">some_function</span><span class="p">():</span>
+<span class="linenos">2</span>    <span class="n">interesting</span> <span class="o">=</span> <span class="kc">False</span>
+<span class="hll"><span class="linenos">3</span>    <span class="nb">print</span> <span class="s1">&#39;This line is highlighted.&#39;</span>
+</span><span class="linenos">4</span>    <span class="nb">print</span> <span class="s1">&#39;This one is not...&#39;</span>
+<span class="hll"><span class="linenos">5</span>    <span class="nb">print</span> <span class="s1">&#39;...but this one is.&#39;</span>
+</span></pre></div>
 </div>
 </section>
 </section>
 </section>
 <section id="sidebar">
-<h2><a class="toc-backref" href="#id44"><span class="section-number">3.5. </span>Sidebar</a><a class="headerlink" href="#sidebar" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id44" role="doc-backlink"><span class="section-number">3.5. </span>Sidebar</a><a class="headerlink" href="#sidebar" title="Permalink to this heading">¶</a></h2>
 <aside class="sidebar">
 <p class="sidebar-title">Ch’ien / The Creative</p>
 <img alt="../../../_images/yi_jing_01_chien.jpg" src="../../../_images/yi_jing_01_chien.jpg" />
@@ -608,204 +607,173 @@ <h2><a class="toc-backref" href="#id44"><span class="section-number">3.5. </span
 creative action of the Deity. In relation to the human world, it denotes the creative action of the holy man or sage,
 of the ruler or leader of men, who through his power awakens and develops their higher nature.</p>
 <section id="code-with-sidebar">
-<h3><a class="toc-backref" href="#id45"><span class="section-number">3.5.1. </span>Code with Sidebar</a><a class="headerlink" href="#code-with-sidebar" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id45" role="doc-backlink"><span class="section-number">3.5.1. </span>Code with Sidebar</a><a class="headerlink" href="#code-with-sidebar" title="Permalink to this heading">¶</a></h3>
 <aside class="sidebar">
 <p class="sidebar-title">A code example</p>
 <p>With a sidebar on the right.</p>
 </aside>
 <div class="literal-block-wrapper docutils container" id="id24">
 <div class="code-block-caption"><span class="caption-text">Literal includes can also have captions.</span><a class="headerlink" href="#id24" title="Permalink to this code">¶</a></div>
-<div class="highlight-python notranslate"><div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span class="normal"> 1</span>
-<span class="normal"> 2</span>
-<span class="normal"> 3</span>
-<span class="normal"> 4</span>
-<span class="normal"> 5</span>
-<span class="normal"> 6</span>
-<span class="normal"> 7</span>
-<span class="normal"> 8</span>
-<span class="normal"> 9</span>
-<span class="normal">10</span>
-<span class="normal">11</span>
-<span class="normal">12</span>
-<span class="normal">13</span>
-<span class="normal">14</span>
-<span class="normal">15</span>
-<span class="normal">16</span>
-<span class="normal">17</span>
-<span class="normal">18</span>
-<span class="normal">19</span>
-<span class="normal">20</span>
-<span class="normal">21</span>
-<span class="normal">22</span>
-<span class="normal">23</span>
-<span class="normal">24</span>
-<span class="normal">25</span>
-<span class="normal">26</span>
-<span class="normal">27</span>
-<span class="normal">28</span>
-<span class="normal">29</span>
-<span class="normal">30</span>
-<span class="normal">31</span>
-<span class="normal">32</span>
-<span class="normal">33</span>
-<span class="normal">34</span>
-<span class="normal">35</span>
-<span class="normal">36</span>
-<span class="normal">37</span>
-<span class="normal">38</span>
-<span class="normal">39</span>
-<span class="normal">40</span></pre></div></td><td class="code"><div><pre><span></span><span class="c1"># -*- coding: utf-8 -*-</span>
-<span class="sd">&quot;&quot;&quot;Test Module for sphinx_rtd_theme.&quot;&quot;&quot;</span>
-
-
-<span class="k">class</span> <span class="nc">Foo</span><span class="p">:</span>
-
-<span class="w">    </span><span class="sd">&quot;&quot;&quot;Docstring for class Foo.</span>
-
-<span class="sd">    This text tests for the formatting of docstrings generated from output</span>
-<span class="sd">    ``sphinx.ext.autodoc``. Which contain reST, but sphinx nests it in the</span>
-<span class="sd">    ``&lt;dl&gt;``, and ``&lt;dt&gt;`` tags. Also, ``&lt;tt&gt;`` is used for class, method names</span>
-<span class="sd">    and etc, but those will *always* have the ``.descname`` or</span>
-<span class="sd">    ``.descclassname`` class.</span>
-
-<span class="sd">    Normal ``&lt;tt&gt;`` (like the &lt;tt&gt; I just wrote here) needs to be shown with</span>
-<span class="sd">    the same style as anything else with ````this type of markup````.</span>
-
-<span class="sd">    It&#39;s common for programmers to give a code example inside of their</span>
-<span class="sd">    docstring::</span>
-
-<span class="sd">        from test_py_module import Foo</span>
-
-<span class="sd">        myclass = Foo()</span>
-<span class="sd">        myclass.dothismethod(&#39;with this argument&#39;)</span>
-<span class="sd">        myclass.flush()</span>
-
-<span class="sd">        print(myclass)</span>
-
-
-<span class="sd">    Here is a link to :py:meth:`capitalize`.</span>
-<span class="sd">    Here is a link to :py:meth:`__init__`.</span>
-
-<span class="sd">    &quot;&quot;&quot;</span>
-
-    <span class="c1">#: Doc comment for class attribute Foo.bar.</span>
-    <span class="c1">#: It can have multiple lines.</span>
-    <span class="n">bar</span> <span class="o">=</span> <span class="mi">1</span>
-
-    <span class="n">flox</span> <span class="o">=</span> <span class="mf">1.5</span>   <span class="c1">#: Doc comment for Foo.flox. One line only.</span>
-
-</pre></div></td></tr></table></div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="linenos"> 1</span><span class="c1"># -*- coding: utf-8 -*-</span>
+<span class="linenos"> 2</span><span class="sd">&quot;&quot;&quot;Test Module for sphinx_rtd_theme.&quot;&quot;&quot;</span>
+<span class="linenos"> 3</span>
+<span class="linenos"> 4</span>
+<span class="linenos"> 5</span><span class="k">class</span> <span class="nc">Foo</span><span class="p">:</span>
+<span class="linenos"> 6</span>
+<span class="linenos"> 7</span><span class="w">    </span><span class="sd">&quot;&quot;&quot;Docstring for class Foo.</span>
+<span class="linenos"> 8</span>
+<span class="linenos"> 9</span><span class="sd">    This text tests for the formatting of docstrings generated from output</span>
+<span class="linenos">10</span><span class="sd">    ``sphinx.ext.autodoc``. Which contain reST, but sphinx nests it in the</span>
+<span class="linenos">11</span><span class="sd">    ``&lt;dl&gt;``, and ``&lt;dt&gt;`` tags. Also, ``&lt;tt&gt;`` is used for class, method names</span>
+<span class="linenos">12</span><span class="sd">    and etc, but those will *always* have the ``.descname`` or</span>
+<span class="linenos">13</span><span class="sd">    ``.descclassname`` class.</span>
+<span class="linenos">14</span>
+<span class="linenos">15</span><span class="sd">    Normal ``&lt;tt&gt;`` (like the &lt;tt&gt; I just wrote here) needs to be shown with</span>
+<span class="linenos">16</span><span class="sd">    the same style as anything else with ````this type of markup````.</span>
+<span class="linenos">17</span>
+<span class="linenos">18</span><span class="sd">    It&#39;s common for programmers to give a code example inside of their</span>
+<span class="linenos">19</span><span class="sd">    docstring::</span>
+<span class="linenos">20</span>
+<span class="linenos">21</span><span class="sd">        from test_py_module import Foo</span>
+<span class="linenos">22</span>
+<span class="linenos">23</span><span class="sd">        myclass = Foo()</span>
+<span class="linenos">24</span><span class="sd">        myclass.dothismethod(&#39;with this argument&#39;)</span>
+<span class="linenos">25</span><span class="sd">        myclass.flush()</span>
+<span class="linenos">26</span>
+<span class="linenos">27</span><span class="sd">        print(myclass)</span>
+<span class="linenos">28</span>
+<span class="linenos">29</span>
+<span class="linenos">30</span><span class="sd">    Here is a link to :py:meth:`capitalize`.</span>
+<span class="linenos">31</span><span class="sd">    Here is a link to :py:meth:`__init__`.</span>
+<span class="linenos">32</span>
+<span class="linenos">33</span><span class="sd">    &quot;&quot;&quot;</span>
+<span class="linenos">34</span>
+<span class="linenos">35</span>    <span class="c1">#: Doc comment for class attribute Foo.bar.</span>
+<span class="linenos">36</span>    <span class="c1">#: It can have multiple lines.</span>
+<span class="linenos">37</span>    <span class="n">bar</span> <span class="o">=</span> <span class="mi">1</span>
+<span class="linenos">38</span>
+<span class="linenos">39</span>    <span class="n">flox</span> <span class="o">=</span> <span class="mf">1.5</span>   <span class="c1">#: Doc comment for Foo.flox. One line only.</span>
+<span class="linenos">40</span>
+</pre></div>
 </div>
 </div>
 </section>
 </section>
 <section id="references">
-<h2><a class="toc-backref" href="#id46"><span class="section-number">3.6. </span>References</a><a class="headerlink" href="#references" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id46" role="doc-backlink"><span class="section-number">3.6. </span>References</a><a class="headerlink" href="#references" title="Permalink to this heading">¶</a></h2>
 <section id="footnotes">
-<h3><a class="toc-backref" href="#id47"><span class="section-number">3.6.1. </span>Footnotes</a><a class="headerlink" href="#footnotes" title="Permalink to this headline">¶</a></h3>
-<dl class="footnote brackets">
-<dt class="label" id="id6"><span class="brackets">1</span><span class="fn-backref">(<a href="#id1">1</a>,<a href="#id7">2</a>)</span></dt>
-<dd><p>A footnote contains body elements, consistently indented by at
+<h3><a class="toc-backref" href="#id47" role="doc-backlink"><span class="section-number">3.6.1. </span>Footnotes</a><a class="headerlink" href="#footnotes" title="Permalink to this heading">¶</a></h3>
+<aside class="footnote-list brackets">
+<aside class="footnote brackets" id="id6" role="note">
+<span class="label"><span class="fn-bracket">[</span>1<span class="fn-bracket">]</span></span>
+<span class="backrefs">(<a role="doc-backlink" href="#id1">1</a>,<a role="doc-backlink" href="#id7">2</a>)</span>
+<p>A footnote contains body elements, consistently indented by at
 least 3 spaces.</p>
 <p>This is the footnote’s second paragraph.</p>
-</dd>
-<dt class="label" id="label"><span class="brackets">2</span><span class="fn-backref">(<a href="#id3">1</a>,<a href="#id8">2</a>)</span></dt>
-<dd><p>Footnotes may be numbered, either manually (as in <a class="footnote-reference brackets" href="#id6" id="id7">1</a>) or
+</aside>
+<aside class="footnote brackets" id="label" role="note">
+<span class="label"><span class="fn-bracket">[</span>2<span class="fn-bracket">]</span></span>
+<span class="backrefs">(<a role="doc-backlink" href="#id3">1</a>,<a role="doc-backlink" href="#id8">2</a>)</span>
+<p>Footnotes may be numbered, either manually (as in <a class="footnote-reference brackets" href="#id6" id="id7" role="doc-noteref"><span class="fn-bracket">[</span>1<span class="fn-bracket">]</span></a>) or
 automatically using a “#”-prefixed label.  This footnote has a
 label so it can be referred to from multiple places, both as a
-footnote reference (<a class="footnote-reference brackets" href="#label" id="id8">2</a>) and as a hyperlink reference
+footnote reference (<a class="footnote-reference brackets" href="#label" id="id8" role="doc-noteref"><span class="fn-bracket">[</span>2<span class="fn-bracket">]</span></a>) and as a hyperlink reference
 (<a class="reference internal" href="#label">label</a>).</p>
-</dd>
-<dt class="label" id="id9"><span class="brackets"><a class="fn-backref" href="#id2">3</a></span></dt>
-<dd><p>This footnote is numbered automatically and anonymously using a
+</aside>
+<aside class="footnote brackets" id="id9" role="note">
+<span class="label"><span class="fn-bracket">[</span><a role="doc-backlink" href="#id2">3</a><span class="fn-bracket">]</span></span>
+<p>This footnote is numbered automatically and anonymously using a
 label of “#” only.</p>
-</dd>
-<dt class="label" id="id10"><span class="brackets"><a class="fn-backref" href="#id4">*</a></span></dt>
-<dd><p>Footnotes may also use symbols, specified with a “*” label.
-Here’s a reference to the next footnote: <a class="footnote-reference brackets" href="#id12" id="id11">†</a>.</p>
-</dd>
-<dt class="label" id="id12"><span class="brackets"><a class="fn-backref" href="#id11">†</a></span></dt>
-<dd><p>This footnote shows the next symbol in the sequence.</p>
-</dd>
-<dt class="label" id="id13"><span class="brackets">4</span></dt>
-<dd><p>Here’s an unreferenced footnote, with a reference to a
+</aside>
+<aside class="footnote brackets" id="id10" role="note">
+<span class="label"><span class="fn-bracket">[</span><a role="doc-backlink" href="#id4">*</a><span class="fn-bracket">]</span></span>
+<p>Footnotes may also use symbols, specified with a “*” label.
+Here’s a reference to the next footnote: <a class="footnote-reference brackets" href="#id12" id="id11" role="doc-noteref"><span class="fn-bracket">[</span>†<span class="fn-bracket">]</span></a>.</p>
+</aside>
+<aside class="footnote brackets" id="id12" role="note">
+<span class="label"><span class="fn-bracket">[</span><a role="doc-backlink" href="#id11">†</a><span class="fn-bracket">]</span></span>
+<p>This footnote shows the next symbol in the sequence.</p>
+</aside>
+<aside class="footnote brackets" id="id13" role="note">
+<span class="label"><span class="fn-bracket">[</span>4<span class="fn-bracket">]</span></span>
+<p>Here’s an unreferenced footnote, with a reference to a
 nonexistent footnote: <a href="#id63"><span class="problematic" id="id14">[5]_</span></a>.</p>
-</dd>
-</dl>
+</aside>
+</aside>
 </section>
 <section id="citations">
-<h3><a class="toc-backref" href="#id48"><span class="section-number">3.6.2. </span>Citations</a><a class="headerlink" href="#citations" title="Permalink to this headline">¶</a></h3>
-<dl class="footnote brackets">
-<dt class="label" id="id15"><span class="brackets">11</span></dt>
-<dd><p>This is the citation I made, let’s make this extremely long so that we can tell that it doesn’t follow the normal responsive table stuff.</p>
-</dd>
-<dt class="label" id="id16"><span class="brackets">12</span><span class="fn-backref">(<a href="#id5">1</a>,<a href="#id19">2</a>)</span></dt>
-<dd><p>This citation has some <code class="docutils literal notranslate"><span class="pre">code</span> <span class="pre">blocks</span></code> in it, maybe some <strong>bold</strong> and
-<em>italics</em> too. Heck, lets put a link to a meta citation <a class="footnote-reference brackets" href="#id18" id="id17">13</a> too.</p>
-</dd>
-<dt class="label" id="id18"><span class="brackets"><a class="fn-backref" href="#id17">13</a></span></dt>
-<dd><p>This citation will have two backlinks.</p>
-</dd>
-</dl>
-<p>Here’s a reference to the above, <a class="footnote-reference brackets" href="#id16" id="id19">12</a>, and a <span id="id20">[nonexistent]</span> citation.</p>
+<h3><a class="toc-backref" href="#id48" role="doc-backlink"><span class="section-number">3.6.2. </span>Citations</a><a class="headerlink" href="#citations" title="Permalink to this heading">¶</a></h3>
+<aside class="footnote-list brackets">
+<aside class="footnote brackets" id="id15" role="note">
+<span class="label"><span class="fn-bracket">[</span>11<span class="fn-bracket">]</span></span>
+<p>This is the citation I made, let’s make this extremely long so that we can tell that it doesn’t follow the normal responsive table stuff.</p>
+</aside>
+<aside class="footnote brackets" id="id16" role="note">
+<span class="label"><span class="fn-bracket">[</span>12<span class="fn-bracket">]</span></span>
+<span class="backrefs">(<a role="doc-backlink" href="#id5">1</a>,<a role="doc-backlink" href="#id19">2</a>)</span>
+<p>This citation has some <code class="docutils literal notranslate"><span class="pre">code</span> <span class="pre">blocks</span></code> in it, maybe some <strong>bold</strong> and
+<em>italics</em> too. Heck, lets put a link to a meta citation <a class="footnote-reference brackets" href="#id18" id="id17" role="doc-noteref"><span class="fn-bracket">[</span>13<span class="fn-bracket">]</span></a> too.</p>
+</aside>
+<aside class="footnote brackets" id="id18" role="note">
+<span class="label"><span class="fn-bracket">[</span><a role="doc-backlink" href="#id17">13</a><span class="fn-bracket">]</span></span>
+<p>This citation will have two backlinks.</p>
+</aside>
+</aside>
+<p>Here’s a reference to the above, <a class="footnote-reference brackets" href="#id16" id="id19" role="doc-noteref"><span class="fn-bracket">[</span>12<span class="fn-bracket">]</span></a>, and a <span id="id20">[nonexistent]</span> citation.</p>
 <p>Here is another type of citation: <cite>citation</cite></p>
 </section>
 <section id="glossary">
-<h3><a class="toc-backref" href="#id49"><span class="section-number">3.6.3. </span>Glossary</a><a class="headerlink" href="#glossary" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id49" role="doc-backlink"><span class="section-number">3.6.3. </span>Glossary</a><a class="headerlink" href="#glossary" title="Permalink to this heading">¶</a></h3>
 <p>This is a glossary with definition terms for thing like <a class="reference internal" href="#term-Writing"><span class="xref std std-term">Writing</span></a>:</p>
-<dl class="glossary simple">
-<dt id="term-Documentation">Documentation</dt><dd><p>Provides users with the knowledge they need to use something.</p>
+<dl class="simple glossary">
+<dt id="term-Documentation">Documentation<a class="headerlink" href="#term-Documentation" title="Permalink to this term">¶</a></dt><dd><p>Provides users with the knowledge they need to use something.</p>
 </dd>
-<dt id="term-Reading">Reading</dt><dd><p>The process of taking information into ones mind through the use of eyes.</p>
+<dt id="term-Reading">Reading<a class="headerlink" href="#term-Reading" title="Permalink to this term">¶</a></dt><dd><p>The process of taking information into ones mind through the use of eyes.</p>
 </dd>
-<dt id="term-Writing">Writing</dt><dd><p>The process of putting thoughts into a medium for other people to <a class="reference internal" href="#term-Reading"><span class="xref std std-term">read</span></a>.</p>
+<dt id="term-Writing">Writing<a class="headerlink" href="#term-Writing" title="Permalink to this term">¶</a></dt><dd><p>The process of putting thoughts into a medium for other people to <a class="reference internal" href="#term-Reading"><span class="xref std std-term">read</span></a>.</p>
 </dd>
 </dl>
 </section>
 <section id="targets">
-<h3><a class="toc-backref" href="#id50"><span class="section-number">3.6.4. </span>Targets</a><a class="headerlink" href="#targets" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id50" role="doc-backlink"><span class="section-number">3.6.4. </span>Targets</a><a class="headerlink" href="#targets" title="Permalink to this heading">¶</a></h3>
 <p id="example">This paragraph is pointed to by the explicit “example” target.
 A reference can be found under <a class="reference internal" href="#inline-markup">Inline Markup</a>, above. <a class="reference internal" href="#inline-hyperlink-targets">Inline
 hyperlink targets</a> are also possible.</p>
 <p>Section headers are implicit targets, referred to by name. See
 <a class="reference internal" href="#targets">Targets</a>, which is a subsection of <a href="#id64"><span class="problematic" id="id65">`Body Elements`_</span></a>.</p>
-<p>Explicit external targets are interpolated into references such as “<a class="reference external" href="http://www.python.org/">Python</a> <a class="footnote-reference brackets" href="#id29" id="id31">5</a>”.</p>
+<p>Explicit external targets are interpolated into references such as “<a class="reference external" href="http://www.python.org/">Python</a> <a class="footnote-reference brackets" href="#id29" id="id31" role="doc-noteref"><span class="fn-bracket">[</span>5<span class="fn-bracket">]</span></a>”.</p>
 <p>Targets may be indirect and anonymous.  Thus <a class="reference internal" href="#targets">this phrase</a> may also
 refer to the <a class="reference internal" href="#targets">Targets</a> section.</p>
 <p>Here’s a <a href="#id66"><span class="problematic" id="id67">`hyperlink reference without a target`_</span></a>, which generates an error.</p>
 </section>
 </section>
 <section id="directives">
-<h2><a class="toc-backref" href="#id51"><span class="section-number">3.7. </span>Directives</a><a class="headerlink" href="#directives" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id51" role="doc-backlink"><span class="section-number">3.7. </span>Directives</a><a class="headerlink" href="#directives" title="Permalink to this heading">¶</a></h2>
 <section id="contents">
-<h3><a class="toc-backref" href="#id52"><span class="section-number">3.7.1. </span>Contents</a><a class="headerlink" href="#contents" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id52" role="doc-backlink"><span class="section-number">3.7.1. </span>Contents</a><a class="headerlink" href="#contents" title="Permalink to this heading">¶</a></h3>
 <p>These are just a sample of the many reStructuredText Directives. For others, please see:
 <a class="reference external" href="http://docutils.sourceforge.net/docs/ref/rst/directives.html">http://docutils.sourceforge.net/docs/ref/rst/directives.html</a>.</p>
 </section>
 <section id="centered-text">
-<h3><a class="toc-backref" href="#id53"><span class="section-number">3.7.2. </span>Centered text</a><a class="headerlink" href="#centered-text" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id53" role="doc-backlink"><span class="section-number">3.7.2. </span>Centered text</a><a class="headerlink" href="#centered-text" title="Permalink to this heading">¶</a></h3>
 <p>You can create a statement with centered text with <code class="docutils literal notranslate"><span class="pre">..</span> <span class="pre">centered::</span></code></p>
 <p class="centered">
 <strong>This is centered text!</strong></p></section>
 <section id="images-figures">
-<h3><a class="toc-backref" href="#id54"><span class="section-number">3.7.3. </span>Images &amp; Figures</a><a class="headerlink" href="#images-figures" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id54" role="doc-backlink"><span class="section-number">3.7.3. </span>Images &amp; Figures</a><a class="headerlink" href="#images-figures" title="Permalink to this heading">¶</a></h3>
 <section id="images">
-<h4><a class="toc-backref" href="#id55"><span class="section-number">3.7.3.1. </span>Images</a><a class="headerlink" href="#images" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id55" role="doc-backlink"><span class="section-number">3.7.3.1. </span>Images</a><a class="headerlink" href="#images" title="Permalink to this heading">¶</a></h4>
 <p>An image directive (also clickable – a hyperlink reference):</p>
 <a class="reference internal image-reference" href="#directives"><img alt="../../../_images/yi_jing_01_chien.jpg" src="../../../_images/yi_jing_01_chien.jpg" /></a>
 </section>
 <section id="figures">
-<h4><a class="toc-backref" href="#id56"><span class="section-number">3.7.3.2. </span>Figures</a><a class="headerlink" href="#figures" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id56" role="doc-backlink"><span class="section-number">3.7.3.2. </span>Figures</a><a class="headerlink" href="#figures" title="Permalink to this heading">¶</a></h4>
 <figure class="align-default" id="id25">
 <img alt="reStructuredText, the markup syntax" src="../../../_images/yi_jing_01_chien.jpg" />
 <figcaption>
 <p><span class="caption-text">A figure is an image with a caption and/or a legend:</span><a class="headerlink" href="#id25" title="Permalink to this image">¶</a></p>
 <div class="legend">
 <table class="docutils align-default">
-<colgroup>
-<col style="width: 20%" />
-<col style="width: 80%" />
-</colgroup>
 <tbody>
 <tr class="row-odd"><td><p>re</p></td>
 <td><p>Revised, revisited, based on ‘re’ module.</p></td>
@@ -832,7 +800,7 @@ <h4><a class="toc-backref" href="#id56"><span class="section-number">3.7.3.2. </
 </section>
 </section>
 <section id="admonitions">
-<h3><a class="toc-backref" href="#id57"><span class="section-number">3.7.4. </span>Admonitions</a><a class="headerlink" href="#admonitions" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id57" role="doc-backlink"><span class="section-number">3.7.4. </span>Admonitions</a><a class="headerlink" href="#admonitions" title="Permalink to this heading">¶</a></h3>
 <div class="admonition attention">
 <p class="admonition-title">Attention</p>
 <p>Directives at large.</p>
@@ -882,9 +850,6 @@ <h3><a class="toc-backref" href="#id57"><span class="section-number">3.7.4. </sp
 <p class="admonition-title">Tip</p>
 <p>15% if the service is good.</p>
 <table class="docutils align-default">
-<colgroup>
-<col style="width: 100%" />
-</colgroup>
 <thead>
 <tr class="row-odd"><th class="head"><p>Example</p></th>
 </tr>
@@ -910,7 +875,7 @@ <h3><a class="toc-backref" href="#id57"><span class="section-number">3.7.4. </sp
 </div>
 </section>
 <section id="topics-sidebars-and-rubrics">
-<h3><a class="toc-backref" href="#id58"><span class="section-number">3.7.5. </span>Topics, Sidebars, and Rubrics</a><a class="headerlink" href="#topics-sidebars-and-rubrics" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id58" role="doc-backlink"><span class="section-number">3.7.5. </span>Topics, Sidebars, and Rubrics</a><a class="headerlink" href="#topics-sidebars-and-rubrics" title="Permalink to this heading">¶</a></h3>
 <aside class="sidebar">
 <p class="sidebar-title">Sidebar Title</p>
 <p class="sidebar-subtitle">Optional Subtitle</p>
@@ -920,34 +885,36 @@ <h3><a class="toc-backref" href="#id58"><span class="section-number">3.7.5. </sp
 <p>Sidebars often appears beside the main text with a border and
 background color.</p>
 </aside>
-<div class="topic">
+<aside class="topic">
 <p class="topic-title">Topic Title</p>
 <p>This is a topic.</p>
-</div>
+</aside>
 <p class="rubric">This is a rubric</p>
 </section>
 <section id="target-footnotes">
-<h3><a class="toc-backref" href="#id59"><span class="section-number">3.7.6. </span>Target Footnotes</a><a class="headerlink" href="#target-footnotes" title="Permalink to this headline">¶</a></h3>
-<dl class="footnote brackets">
-<dt class="label" id="id29"><span class="brackets">5</span><span class="fn-backref">(<a href="#id30">1</a>,<a href="#id31">2</a>,<a href="#id32">3</a>)</span></dt>
-<dd><p><a class="reference external" href="http://www.python.org/">http://www.python.org/</a></p>
-</dd>
-</dl>
+<h3><a class="toc-backref" href="#id59" role="doc-backlink"><span class="section-number">3.7.6. </span>Target Footnotes</a><a class="headerlink" href="#target-footnotes" title="Permalink to this heading">¶</a></h3>
+<aside class="footnote-list brackets">
+<aside class="footnote brackets" id="id29" role="note">
+<span class="label"><span class="fn-bracket">[</span>5<span class="fn-bracket">]</span></span>
+<span class="backrefs">(<a role="doc-backlink" href="#id30">1</a>,<a role="doc-backlink" href="#id31">2</a>,<a role="doc-backlink" href="#id32">3</a>)</span>
+<p><a class="reference external" href="http://www.python.org/">http://www.python.org/</a></p>
+</aside>
+</aside>
 </section>
 <section id="replacement-text">
-<h3><a class="toc-backref" href="#id60"><span class="section-number">3.7.7. </span>Replacement Text</a><a class="headerlink" href="#replacement-text" title="Permalink to this headline">¶</a></h3>
-<p>I recommend you try <a class="reference external" href="http://www.python.org/">Python, <em>the</em> best language around</a> <a class="footnote-reference brackets" href="#id29" id="id32">5</a>.</p>
+<h3><a class="toc-backref" href="#id60" role="doc-backlink"><span class="section-number">3.7.7. </span>Replacement Text</a><a class="headerlink" href="#replacement-text" title="Permalink to this heading">¶</a></h3>
+<p>I recommend you try <a class="reference external" href="http://www.python.org/">Python, <em>the</em> best language around</a> <a class="footnote-reference brackets" href="#id29" id="id32" role="doc-noteref"><span class="fn-bracket">[</span>5<span class="fn-bracket">]</span></a>.</p>
 </section>
 <section id="compound-paragraph">
-<h3><a class="toc-backref" href="#id61"><span class="section-number">3.7.8. </span>Compound Paragraph</a><a class="headerlink" href="#compound-paragraph" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id61" role="doc-backlink"><span class="section-number">3.7.8. </span>Compound Paragraph</a><a class="headerlink" href="#compound-paragraph" title="Permalink to this heading">¶</a></h3>
 <div class="compound">
-<p class="compound-first">This paragraph contains a literal block:</p>
-<div class="compound-middle highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">Connecting</span><span class="p">...</span><span class="w"> </span><span class="n">OK</span>
+<p>This paragraph contains a literal block:</p>
+<div class="highlight-cpp notranslate"><div class="highlight"><pre><span></span><span class="n">Connecting</span><span class="p">...</span><span class="w"> </span><span class="n">OK</span>
 <span class="n">Transmitting</span><span class="w"> </span><span class="n">data</span><span class="p">...</span><span class="w"> </span><span class="n">OK</span>
 <span class="n">Disconnecting</span><span class="p">...</span><span class="w"> </span><span class="n">OK</span>
 </pre></div>
 </div>
-<p class="compound-last">and thus consists of a simple paragraph, a literal block, and
+<p>and thus consists of a simple paragraph, a literal block, and
 another simple paragraph.  Nonetheless it is semantically <em>one</em>
 paragraph.</p>
 </div>
@@ -956,7 +923,7 @@ <h3><a class="toc-backref" href="#id61"><span class="section-number">3.7.8. </sp
 </section>
 </section>
 <section id="download-links">
-<h2><a class="toc-backref" href="#id62"><span class="section-number">3.8. </span>Download Links</a><a class="headerlink" href="#download-links" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id62" role="doc-backlink"><span class="section-number">3.8. </span>Download Links</a><a class="headerlink" href="#download-links" title="Permalink to this heading">¶</a></h2>
 <p><a class="reference download internal" download="" href="../../../_downloads/298a9cc59493b744271ecde738d943ee/yi_jing_01_chien.jpg"><code class="xref download docutils literal notranslate"><span class="pre">This</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">long</span> <span class="pre">download</span> <span class="pre">link</span> <span class="pre">should</span> <span class="pre">be</span> <span class="pre">blue,</span> <span class="pre">normal</span> <span class="pre">weight</span> <span class="pre">text</span> <span class="pre">with</span> <span class="pre">a</span> <span class="pre">leading</span> <span class="pre">icon,</span> <span class="pre">and</span> <span class="pre">should</span> <span class="pre">wrap</span> <span class="pre">white-spaces</span></code></a></p>
 </section>
 </section>
@@ -1054,11 +1021,10 @@ <h2><a class="toc-backref" href="#id62"><span class="section-number">3.8. </span
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-         <script src="../../../_static/jquery.js"></script>
-         <script src="../../../_static/underscore.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
          <script src="../../../_static/doctools.js"></script>
-         <script src="../../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../../_static/sphinx_highlight.js"></script>
+         <script async="async" src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/demo/lists_tables.html b/pytorch-sphinx-theme/docs/demo/lists_tables.html
index 90c8bb82d..e312df374 100644
--- a/pytorch-sphinx-theme/docs/demo/lists_tables.html
+++ b/pytorch-sphinx-theme/docs/demo/lists_tables.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,8 +352,8 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="lists-tables">
-<h1><a class="toc-backref" href="#id17"><span class="section-number">4. </span>Lists &amp; Tables</a><a class="headerlink" href="#lists-tables" title="Permalink to this headline">¶</a></h1>
-<div class="contents topic" id="table-of-contents">
+<h1><a class="toc-backref" href="#id17" role="doc-backlink"><span class="section-number">4. </span>Lists &amp; Tables</a><a class="headerlink" href="#lists-tables" title="Permalink to this heading">¶</a></h1>
+<nav class="contents" id="table-of-contents">
 <p class="topic-title">Table of Contents</p>
 <ul class="simple">
 <li><p><a class="reference internal" href="#lists-tables" id="id17">Lists &amp; Tables</a></p>
@@ -387,11 +390,11 @@ <h1><a class="toc-backref" href="#id17"><span class="section-number">4. </span>L
 </ul>
 </li>
 </ul>
-</div>
+</nav>
 <section id="lists">
-<h2><a class="toc-backref" href="#id18"><span class="section-number">4.1. </span>Lists</a><a class="headerlink" href="#lists" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id18" role="doc-backlink"><span class="section-number">4.1. </span>Lists</a><a class="headerlink" href="#lists" title="Permalink to this heading">¶</a></h2>
 <section id="enumerated-lists">
-<h3><a class="toc-backref" href="#id19"><span class="section-number">4.1.1. </span>Enumerated Lists</a><a class="headerlink" href="#enumerated-lists" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id19" role="doc-backlink"><span class="section-number">4.1.1. </span>Enumerated Lists</a><a class="headerlink" href="#enumerated-lists" title="Permalink to this heading">¶</a></h3>
 <ol class="arabic">
 <li><p>Arabic numerals.</p>
 <ol class="loweralpha simple">
@@ -428,7 +431,7 @@ <h3><a class="toc-backref" href="#id19"><span class="section-number">4.1.1. </sp
 </ol>
 </section>
 <section id="definition-lists">
-<h3><a class="toc-backref" href="#id20"><span class="section-number">4.1.2. </span>Definition Lists</a><a class="headerlink" href="#definition-lists" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id20" role="doc-backlink"><span class="section-number">4.1.2. </span>Definition Lists</a><a class="headerlink" href="#definition-lists" title="Permalink to this heading">¶</a></h3>
 <dl>
 <dt>Term</dt><dd><p>Definition</p>
 </dd>
@@ -440,7 +443,7 @@ <h3><a class="toc-backref" href="#id20"><span class="section-number">4.1.2. </sp
 </dl>
 </section>
 <section id="option-lists">
-<h3><a class="toc-backref" href="#id21"><span class="section-number">4.1.3. </span>Option Lists</a><a class="headerlink" href="#option-lists" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id21" role="doc-backlink"><span class="section-number">4.1.3. </span>Option Lists</a><a class="headerlink" href="#option-lists" title="Permalink to this heading">¶</a></h3>
 <p>For listing command-line options:</p>
 <dl class="option-list">
 <dt><kbd><span class="option">-a</span></kbd></dt>
@@ -478,38 +481,38 @@ <h3><a class="toc-backref" href="#id21"><span class="section-number">4.1.3. </sp
 <p>There must be at least two spaces between the option and the description.</p>
 </section>
 <section id="field-list">
-<h3><a class="toc-backref" href="#id22"><span class="section-number">4.1.4. </span>Field list</a><a class="headerlink" href="#field-list" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id22" role="doc-backlink"><span class="section-number">4.1.4. </span>Field list</a><a class="headerlink" href="#field-list" title="Permalink to this heading">¶</a></h3>
 <dl class="field-list">
-<dt class="field-odd">Author</dt>
+<dt class="field-odd">Author<span class="colon">:</span></dt>
 <dd class="field-odd"><p>David Goodger</p>
 </dd>
-<dt class="field-even">Address</dt>
+<dt class="field-even">Address<span class="colon">:</span></dt>
 <dd class="field-even"><p>123 Example Street
 Example, EX  Canada
 A1B 2C3</p>
 </dd>
-<dt class="field-odd">Contact</dt>
+<dt class="field-odd">Contact<span class="colon">:</span></dt>
 <dd class="field-odd"><p><a class="reference external" href="mailto:docutils-develop&#37;&#52;&#48;lists&#46;sourceforge&#46;net">docutils-develop<span>&#64;</span>lists<span>&#46;</span>sourceforge<span>&#46;</span>net</a></p>
 </dd>
-<dt class="field-even">Authors</dt>
+<dt class="field-even">Authors<span class="colon">:</span></dt>
 <dd class="field-even"><p>Me; Myself; I</p>
 </dd>
-<dt class="field-odd">organization</dt>
+<dt class="field-odd">organization<span class="colon">:</span></dt>
 <dd class="field-odd"><p>humankind</p>
 </dd>
-<dt class="field-even">date</dt>
+<dt class="field-even">date<span class="colon">:</span></dt>
 <dd class="field-even"><p>$Date: 2012-01-03 19:23:53 +0000 (Tue, 03 Jan 2012) $</p>
 </dd>
-<dt class="field-odd">status</dt>
+<dt class="field-odd">status<span class="colon">:</span></dt>
 <dd class="field-odd"><p>This is a “work in progress”</p>
 </dd>
-<dt class="field-even">revision</dt>
+<dt class="field-even">revision<span class="colon">:</span></dt>
 <dd class="field-even"><p>$Revision: 7302 $</p>
 </dd>
-<dt class="field-odd">version</dt>
+<dt class="field-odd">version<span class="colon">:</span></dt>
 <dd class="field-odd"><p>1</p>
 </dd>
-<dt class="field-even">copyright</dt>
+<dt class="field-even">copyright<span class="colon">:</span></dt>
 <dd class="field-even"><p>This document has been placed in the public domain. You
 may do with it as you wish. You may copy, modify,
 redistribute, reattribute, sell, buy, rent, lease,
@@ -518,17 +521,17 @@ <h3><a class="toc-backref" href="#id22"><span class="section-number">4.1.4. </sp
 anything else to it that your or anyone else’s heart
 desires.</p>
 </dd>
-<dt class="field-odd">field name</dt>
+<dt class="field-odd">field name<span class="colon">:</span></dt>
 <dd class="field-odd"><p>This is a generic bibliographic field.</p>
 </dd>
-<dt class="field-even">field name 2</dt>
+<dt class="field-even">field name 2<span class="colon">:</span></dt>
 <dd class="field-even"><p>Generic bibliographic fields may contain multiple body elements.</p>
 <p>Like this.</p>
 </dd>
-<dt class="field-odd">Dedication</dt>
+<dt class="field-odd">Dedication<span class="colon">:</span></dt>
 <dd class="field-odd"><p>For Docutils users &amp; co-developers.</p>
 </dd>
-<dt class="field-even">abstract</dt>
+<dt class="field-even">abstract<span class="colon">:</span></dt>
 <dd class="field-even"><p>This document is a demonstration of the reStructuredText markup
 language, containing examples of all basic reStructuredText
 constructs and many advanced constructs.</p>
@@ -536,7 +539,7 @@ <h3><a class="toc-backref" href="#id22"><span class="section-number">4.1.4. </sp
 </dl>
 </section>
 <section id="bullet-lists">
-<h3><a class="toc-backref" href="#id23"><span class="section-number">4.1.5. </span>Bullet Lists</a><a class="headerlink" href="#bullet-lists" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id23" role="doc-backlink"><span class="section-number">4.1.5. </span>Bullet Lists</a><a class="headerlink" href="#bullet-lists" title="Permalink to this heading">¶</a></h3>
 <ul>
 <li><p>A bullet list</p>
 <ul class="simple">
@@ -562,7 +565,7 @@ <h3><a class="toc-backref" href="#id23"><span class="section-number">4.1.5. </sp
 <li><p><code class="docutils literal notranslate"><span class="pre">inline</span> <span class="pre">literall</span></code></p></li>
 </ul>
 <section id="second-list-level">
-<h4><a class="toc-backref" href="#id24"><span class="section-number">4.1.5.1. </span>Second list level</a><a class="headerlink" href="#second-list-level" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id24" role="doc-backlink"><span class="section-number">4.1.5.1. </span>Second list level</a><a class="headerlink" href="#second-list-level" title="Permalink to this heading">¶</a></h4>
 <ul>
 <li><p>here is a list in a second-level section.</p></li>
 <li><p><a class="reference external" href="http://www.yahoo.com">yahoo</a></p></li>
@@ -573,26 +576,17 @@ <h4><a class="toc-backref" href="#id24"><span class="section-number">4.1.5.1. </
 <ul>
 <li><p>one more <code class="docutils literal notranslate"><span class="pre">with</span> <span class="pre">an</span> <span class="pre">inline</span> <span class="pre">literally</span></code>. <a class="reference external" href="http://www.yahoo.com">yahoo</a></p>
 <p>heh heh. child. try to beat this embed:</p>
-<div class="highlight-python notranslate"><div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span class="normal"> 1</span>
-<span class="normal"> 2</span>
-<span class="normal"> 3</span>
-<span class="normal"> 4</span>
-<span class="normal"> 5</span>
-<span class="normal"> 6</span>
-<span class="normal"> 7</span>
-<span class="normal"> 8</span>
-<span class="normal"> 9</span>
-<span class="normal">10</span></pre></div></td><td class="code"><div><pre><span></span><span class="c1"># -*- coding: utf-8 -*-</span>
-<span class="sd">&quot;&quot;&quot;Test Module for sphinx_rtd_theme.&quot;&quot;&quot;</span>
-
-
-<span class="k">class</span> <span class="nc">Foo</span><span class="p">:</span>
-
-    <span class="s2">&quot;&quot;&quot;Docstring for class Foo.</span>
-
-<span class="s2">    This text tests for the formatting of docstrings generated from output</span>
-<span class="s2">    ``sphinx.ext.autodoc``. Which contain reST, but sphinx nests it in the</span>
-</pre></div></td></tr></table></div>
+<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="linenos"> 1</span><span class="c1"># -*- coding: utf-8 -*-</span>
+<span class="linenos"> 2</span><span class="sd">&quot;&quot;&quot;Test Module for sphinx_rtd_theme.&quot;&quot;&quot;</span>
+<span class="linenos"> 3</span>
+<span class="linenos"> 4</span>
+<span class="linenos"> 5</span><span class="k">class</span> <span class="nc">Foo</span><span class="p">:</span>
+<span class="linenos"> 6</span>
+<span class="linenos"> 7</span>    <span class="s2">&quot;&quot;&quot;Docstring for class Foo.</span>
+<span class="linenos"> 8</span>
+<span class="linenos"> 9</span><span class="s2">    This text tests for the formatting of docstrings generated from output</span>
+<span class="linenos">10</span><span class="s2">    ``sphinx.ext.autodoc``. Which contain reST, but sphinx nests it in the</span>
+</pre></div>
 </div>
 </li>
 </ul>
@@ -605,7 +599,7 @@ <h4><a class="toc-backref" href="#id24"><span class="section-number">4.1.5.1. </
 <li><p>and hehe</p></li>
 </ul>
 <section id="but-deeper-down-the-rabbit-hole">
-<h5><a class="toc-backref" href="#id25"><span class="section-number">4.1.5.1.1. </span>But deeper down the rabbit hole</a><a class="headerlink" href="#but-deeper-down-the-rabbit-hole" title="Permalink to this headline">¶</a></h5>
+<h5><a class="toc-backref" href="#id25" role="doc-backlink"><span class="section-number">4.1.5.1.1. </span>But deeper down the rabbit hole</a><a class="headerlink" href="#but-deeper-down-the-rabbit-hole" title="Permalink to this heading">¶</a></h5>
 <ul class="simple">
 <li><p>I kept saying that, “deeper down the rabbit hole”. <a class="reference external" href="http://www.yahoo.com">yahoo</a></p>
 <ul>
@@ -628,7 +622,7 @@ <h5><a class="toc-backref" href="#id25"><span class="section-number">4.1.5.1.1.
 </section>
 </section>
 <section id="hlists">
-<h3><a class="toc-backref" href="#id26"><span class="section-number">4.1.6. </span>Hlists</a><a class="headerlink" href="#hlists" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id26" role="doc-backlink"><span class="section-number">4.1.6. </span>Hlists</a><a class="headerlink" href="#hlists" title="Permalink to this heading">¶</a></h3>
 <table class="hlist"><tr><td><ul class="simple">
 <li><p>First item</p></li>
 <li><p>Second item</p></li>
@@ -663,7 +657,7 @@ <h3><a class="toc-backref" href="#id26"><span class="section-number">4.1.6. </sp
 </td></tr></table>
 </section>
 <section id="numbered-list">
-<h3><a class="toc-backref" href="#id27"><span class="section-number">4.1.7. </span>Numbered List</a><a class="headerlink" href="#numbered-list" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id27" role="doc-backlink"><span class="section-number">4.1.7. </span>Numbered List</a><a class="headerlink" href="#numbered-list" title="Permalink to this heading">¶</a></h3>
 <ol class="arabic simple">
 <li><p>One,</p></li>
 <li><p>Two.</p></li>
@@ -687,17 +681,11 @@ <h3><a class="toc-backref" href="#id27"><span class="section-number">4.1.7. </sp
 </section>
 </section>
 <section id="tables">
-<h2><a class="toc-backref" href="#id28"><span class="section-number">4.2. </span>Tables</a><a class="headerlink" href="#tables" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id28" role="doc-backlink"><span class="section-number">4.2. </span>Tables</a><a class="headerlink" href="#tables" title="Permalink to this heading">¶</a></h2>
 <section id="grid-tables">
-<h3><a class="toc-backref" href="#id29"><span class="section-number">4.2.1. </span>Grid Tables</a><a class="headerlink" href="#grid-tables" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id29" role="doc-backlink"><span class="section-number">4.2.1. </span>Grid Tables</a><a class="headerlink" href="#grid-tables" title="Permalink to this heading">¶</a></h3>
 <p>Here’s a grid table followed by a simple table:</p>
 <table class="docutils align-default">
-<colgroup>
-<col style="width: 43%" />
-<col style="width: 21%" />
-<col style="width: 18%" />
-<col style="width: 18%" />
-</colgroup>
 <thead>
 <tr class="row-odd"><th class="head"><p>Header row, column 1
 (header rows optional)</p></th>
@@ -735,11 +723,6 @@ <h3><a class="toc-backref" href="#id29"><span class="section-number">4.2.1. </sp
 </tbody>
 </table>
 <table class="docutils align-default">
-<colgroup>
-<col style="width: 31%" />
-<col style="width: 31%" />
-<col style="width: 38%" />
-</colgroup>
 <thead>
 <tr class="row-odd"><th class="head" colspan="2"><p>Inputs</p></th>
 <th class="head"><p>Output</p></th>
@@ -769,22 +752,8 @@ <h3><a class="toc-backref" href="#id29"><span class="section-number">4.2.1. </sp
 </tbody>
 </table>
 <section id="giant-tables">
-<h4><a class="toc-backref" href="#id30"><span class="section-number">4.2.1.1. </span>Giant Tables</a><a class="headerlink" href="#giant-tables" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id30" role="doc-backlink"><span class="section-number">4.2.1.1. </span>Giant Tables</a><a class="headerlink" href="#giant-tables" title="Permalink to this heading">¶</a></h4>
 <table class="docutils align-default">
-<colgroup>
-<col style="width: 9%" />
-<col style="width: 9%" />
-<col style="width: 8%" />
-<col style="width: 9%" />
-<col style="width: 9%" />
-<col style="width: 8%" />
-<col style="width: 9%" />
-<col style="width: 9%" />
-<col style="width: 8%" />
-<col style="width: 9%" />
-<col style="width: 9%" />
-<col style="width: 8%" />
-</colgroup>
 <thead>
 <tr class="row-odd"><th class="head"><p>Header 1</p></th>
 <th class="head"><p>Header 2</p></th>
@@ -858,14 +827,14 @@ <h4><a class="toc-backref" href="#id30"><span class="section-number">4.2.1.1. </
 </section>
 </section>
 <section id="list-tables">
-<h3><a class="toc-backref" href="#id31"><span class="section-number">4.2.2. </span>List Tables</a><a class="headerlink" href="#list-tables" title="Permalink to this headline">¶</a></h3>
-<table class="colwidths-given docutils align-default" id="id13">
+<h3><a class="toc-backref" href="#id31" role="doc-backlink"><span class="section-number">4.2.2. </span>List Tables</a><a class="headerlink" href="#list-tables" title="Permalink to this heading">¶</a></h3>
+<table class="docutils align-default" id="id13">
 <caption><span class="caption-text">List tables can have captions like this one.</span><a class="headerlink" href="#id13" title="Permalink to this table">¶</a></caption>
 <colgroup>
-<col style="width: 13%" />
-<col style="width: 7%" />
-<col style="width: 13%" />
-<col style="width: 67%" />
+<col style="width: 13.3%" />
+<col style="width: 6.7%" />
+<col style="width: 13.3%" />
+<col style="width: 66.7%" />
 </colgroup>
 <thead>
 <tr class="row-odd"><th class="head stub"><p>List table</p></th>
@@ -894,10 +863,6 @@ <h3><a class="toc-backref" href="#id31"><span class="section-number">4.2.2. </sp
 </table>
 <table class="docutils align-default" id="id14">
 <caption><span class="caption-text">This is a list table with images in it.</span><a class="headerlink" href="#id14" title="Permalink to this table">¶</a></caption>
-<colgroup>
-<col style="width: 50%" />
-<col style="width: 50%" />
-</colgroup>
 <tbody>
 <tr class="row-odd"><td><figure class="align-default" id="id15">
 <img alt="../../../_images/yi_jing_01_chien.jpg" src="../../../_images/yi_jing_01_chien.jpg" />
@@ -997,11 +962,9 @@ <h3><a class="toc-backref" href="#id31"><span class="section-number">4.2.2. </sp
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-         <script src="../../../_static/jquery.js"></script>
-         <script src="../../../_static/underscore.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
          <script src="../../../_static/doctools.js"></script>
-         <script src="../../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/demo/long.html b/pytorch-sphinx-theme/docs/demo/long.html
index 6da90caf1..52b3e614d 100644
--- a/pytorch-sphinx-theme/docs/demo/long.html
+++ b/pytorch-sphinx-theme/docs/demo/long.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,8 +352,8 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="long-sticky-nav">
-<h1><a class="toc-backref" href="#id9"><span class="section-number">1. </span>Long Sticky Nav</a><a class="headerlink" href="#long-sticky-nav" title="Permalink to this headline">¶</a></h1>
-<div class="contents topic" id="table-of-contents">
+<h1><a class="toc-backref" href="#id9" role="doc-backlink"><span class="section-number">1. </span>Long Sticky Nav</a><a class="headerlink" href="#long-sticky-nav" title="Permalink to this heading">¶</a></h1>
+<nav class="contents" id="table-of-contents">
 <p class="topic-title">Table of Contents</p>
 <ul class="simple">
 <li><p><a class="reference internal" href="#long-sticky-nav" id="id9">Long Sticky Nav</a></p>
@@ -413,154 +416,154 @@ <h1><a class="toc-backref" href="#id9"><span class="section-number">1. </span>Lo
 </ul>
 </li>
 </ul>
-</div>
+</nav>
 <p>This section demonstrates how the ‘sticky_navigation’ setting behaves when the menu is very long.
 When this section is selected, it will make the menu and the main area scroll when you are at the top of the page.</p>
 <section id="example-menu-1">
-<h2><a class="toc-backref" href="#id10"><span class="section-number">1.1. </span>Example Menu 1</a><a class="headerlink" href="#example-menu-1" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id10" role="doc-backlink"><span class="section-number">1.1. </span>Example Menu 1</a><a class="headerlink" href="#example-menu-1" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-2">
-<h2><a class="toc-backref" href="#id11"><span class="section-number">1.2. </span>Example Menu 2</a><a class="headerlink" href="#example-menu-2" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id11" role="doc-backlink"><span class="section-number">1.2. </span>Example Menu 2</a><a class="headerlink" href="#example-menu-2" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-3">
-<h2><a class="toc-backref" href="#id12"><span class="section-number">1.3. </span>Example Menu 3</a><a class="headerlink" href="#example-menu-3" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id12" role="doc-backlink"><span class="section-number">1.3. </span>Example Menu 3</a><a class="headerlink" href="#example-menu-3" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-4">
-<h2><a class="toc-backref" href="#id13"><span class="section-number">1.4. </span>Example Menu 4</a><a class="headerlink" href="#example-menu-4" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id13" role="doc-backlink"><span class="section-number">1.4. </span>Example Menu 4</a><a class="headerlink" href="#example-menu-4" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-5">
-<h2><a class="toc-backref" href="#id14"><span class="section-number">1.5. </span>Example Menu 5</a><a class="headerlink" href="#example-menu-5" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id14" role="doc-backlink"><span class="section-number">1.5. </span>Example Menu 5</a><a class="headerlink" href="#example-menu-5" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-6">
-<h2><a class="toc-backref" href="#id15"><span class="section-number">1.6. </span>Example Menu 6</a><a class="headerlink" href="#example-menu-6" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id15" role="doc-backlink"><span class="section-number">1.6. </span>Example Menu 6</a><a class="headerlink" href="#example-menu-6" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-7">
-<h2><a class="toc-backref" href="#id16"><span class="section-number">1.7. </span>Example Menu 7</a><a class="headerlink" href="#example-menu-7" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id16" role="doc-backlink"><span class="section-number">1.7. </span>Example Menu 7</a><a class="headerlink" href="#example-menu-7" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-8">
-<h2><a class="toc-backref" href="#id17"><span class="section-number">1.8. </span>Example Menu 8</a><a class="headerlink" href="#example-menu-8" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id17" role="doc-backlink"><span class="section-number">1.8. </span>Example Menu 8</a><a class="headerlink" href="#example-menu-8" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-9">
-<h2><a class="toc-backref" href="#id18"><span class="section-number">1.9. </span>Example Menu 9</a><a class="headerlink" href="#example-menu-9" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id18" role="doc-backlink"><span class="section-number">1.9. </span>Example Menu 9</a><a class="headerlink" href="#example-menu-9" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-10">
-<h2><a class="toc-backref" href="#id19"><span class="section-number">1.10. </span>Example Menu 10</a><a class="headerlink" href="#example-menu-10" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id19" role="doc-backlink"><span class="section-number">1.10. </span>Example Menu 10</a><a class="headerlink" href="#example-menu-10" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-11">
-<h2><a class="toc-backref" href="#id20"><span class="section-number">1.11. </span>Example Menu 11</a><a class="headerlink" href="#example-menu-11" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id20" role="doc-backlink"><span class="section-number">1.11. </span>Example Menu 11</a><a class="headerlink" href="#example-menu-11" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-12">
-<h2><a class="toc-backref" href="#id21"><span class="section-number">1.12. </span>Example Menu 12</a><a class="headerlink" href="#example-menu-12" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id21" role="doc-backlink"><span class="section-number">1.12. </span>Example Menu 12</a><a class="headerlink" href="#example-menu-12" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-13">
-<h2><a class="toc-backref" href="#id22"><span class="section-number">1.13. </span>Example Menu 13</a><a class="headerlink" href="#example-menu-13" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id22" role="doc-backlink"><span class="section-number">1.13. </span>Example Menu 13</a><a class="headerlink" href="#example-menu-13" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-14">
-<h2><a class="toc-backref" href="#id23"><span class="section-number">1.14. </span>Example Menu 14</a><a class="headerlink" href="#example-menu-14" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id23" role="doc-backlink"><span class="section-number">1.14. </span>Example Menu 14</a><a class="headerlink" href="#example-menu-14" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-15">
-<h2><a class="toc-backref" href="#id24"><span class="section-number">1.15. </span>Example Menu 15</a><a class="headerlink" href="#example-menu-15" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id24" role="doc-backlink"><span class="section-number">1.15. </span>Example Menu 15</a><a class="headerlink" href="#example-menu-15" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-16">
-<h2><a class="toc-backref" href="#id25"><span class="section-number">1.16. </span>Example Menu 16</a><a class="headerlink" href="#example-menu-16" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id25" role="doc-backlink"><span class="section-number">1.16. </span>Example Menu 16</a><a class="headerlink" href="#example-menu-16" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-17">
-<h2><a class="toc-backref" href="#id26"><span class="section-number">1.17. </span>Example Menu 17</a><a class="headerlink" href="#example-menu-17" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id26" role="doc-backlink"><span class="section-number">1.17. </span>Example Menu 17</a><a class="headerlink" href="#example-menu-17" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-18">
-<h2><a class="toc-backref" href="#id27"><span class="section-number">1.18. </span>Example Menu 18</a><a class="headerlink" href="#example-menu-18" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id27" role="doc-backlink"><span class="section-number">1.18. </span>Example Menu 18</a><a class="headerlink" href="#example-menu-18" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-19">
-<h2><a class="toc-backref" href="#id28"><span class="section-number">1.19. </span>Example Menu 19</a><a class="headerlink" href="#example-menu-19" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id28" role="doc-backlink"><span class="section-number">1.19. </span>Example Menu 19</a><a class="headerlink" href="#example-menu-19" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-menu-20">
-<h2><a class="toc-backref" href="#id29"><span class="section-number">1.20. </span>Example Menu 20</a><a class="headerlink" href="#example-menu-20" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id29" role="doc-backlink"><span class="section-number">1.20. </span>Example Menu 20</a><a class="headerlink" href="#example-menu-20" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 </section>
 <section id="example-submenu-1">
-<h2><a class="toc-backref" href="#id30"><span class="section-number">1.21. </span>Example Submenu 1</a><a class="headerlink" href="#example-submenu-1" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id30" role="doc-backlink"><span class="section-number">1.21. </span>Example Submenu 1</a><a class="headerlink" href="#example-submenu-1" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 <section id="submenu-1">
-<h3><a class="toc-backref" href="#id31"><span class="section-number">1.21.1. </span>Submenu 1</a><a class="headerlink" href="#submenu-1" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id31" role="doc-backlink"><span class="section-number">1.21.1. </span>Submenu 1</a><a class="headerlink" href="#submenu-1" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 <section id="subsubmenu-1">
-<h4><a class="toc-backref" href="#id32"><span class="section-number">1.21.1.1. </span>Subsubmenu 1</a><a class="headerlink" href="#subsubmenu-1" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id32" role="doc-backlink"><span class="section-number">1.21.1.1. </span>Subsubmenu 1</a><a class="headerlink" href="#subsubmenu-1" title="Permalink to this heading">¶</a></h4>
 <p>Just a place holder…</p>
 </section>
 <section id="subsubmenu-2">
-<h4><a class="toc-backref" href="#id33"><span class="section-number">1.21.1.2. </span>Subsubmenu 2</a><a class="headerlink" href="#subsubmenu-2" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id33" role="doc-backlink"><span class="section-number">1.21.1.2. </span>Subsubmenu 2</a><a class="headerlink" href="#subsubmenu-2" title="Permalink to this heading">¶</a></h4>
 <p>Just a place holder…</p>
 </section>
 </section>
 <section id="submenu-2">
-<h3><a class="toc-backref" href="#id34"><span class="section-number">1.21.2. </span>Submenu 2</a><a class="headerlink" href="#submenu-2" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id34" role="doc-backlink"><span class="section-number">1.21.2. </span>Submenu 2</a><a class="headerlink" href="#submenu-2" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 <section id="id1">
-<h4><a class="toc-backref" href="#id35"><span class="section-number">1.21.2.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id1" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id35" role="doc-backlink"><span class="section-number">1.21.2.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id1" title="Permalink to this heading">¶</a></h4>
 <p>Just a place holder…</p>
 </section>
 </section>
 <section id="submenu-3">
-<h3><a class="toc-backref" href="#id36"><span class="section-number">1.21.3. </span>Submenu 3</a><a class="headerlink" href="#submenu-3" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id36" role="doc-backlink"><span class="section-number">1.21.3. </span>Submenu 3</a><a class="headerlink" href="#submenu-3" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 <section id="submenu-4">
-<h3><a class="toc-backref" href="#id37"><span class="section-number">1.21.4. </span>Submenu 4</a><a class="headerlink" href="#submenu-4" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id37" role="doc-backlink"><span class="section-number">1.21.4. </span>Submenu 4</a><a class="headerlink" href="#submenu-4" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 <section id="submenu-5">
-<h3><a class="toc-backref" href="#id38"><span class="section-number">1.21.5. </span>Submenu 5</a><a class="headerlink" href="#submenu-5" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id38" role="doc-backlink"><span class="section-number">1.21.5. </span>Submenu 5</a><a class="headerlink" href="#submenu-5" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 </section>
 <section id="example-submenu-2">
-<h2><a class="toc-backref" href="#id39"><span class="section-number">1.22. </span>Example Submenu 2</a><a class="headerlink" href="#example-submenu-2" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id39" role="doc-backlink"><span class="section-number">1.22. </span>Example Submenu 2</a><a class="headerlink" href="#example-submenu-2" title="Permalink to this heading">¶</a></h2>
 <p>Just a place holder…</p>
 <section id="id2">
-<h3><a class="toc-backref" href="#id40"><span class="section-number">1.22.1. </span>Submenu 1</a><a class="headerlink" href="#id2" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id40" role="doc-backlink"><span class="section-number">1.22.1. </span>Submenu 1</a><a class="headerlink" href="#id2" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 <section id="id3">
-<h4><a class="toc-backref" href="#id41"><span class="section-number">1.22.1.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id3" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id41" role="doc-backlink"><span class="section-number">1.22.1.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id3" title="Permalink to this heading">¶</a></h4>
 <p>Just a place holder…</p>
 </section>
 </section>
 <section id="id4">
-<h3><a class="toc-backref" href="#id42"><span class="section-number">1.22.2. </span>Submenu 2</a><a class="headerlink" href="#id4" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id42" role="doc-backlink"><span class="section-number">1.22.2. </span>Submenu 2</a><a class="headerlink" href="#id4" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 <section id="id5">
-<h4><a class="toc-backref" href="#id43"><span class="section-number">1.22.2.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id5" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id43" role="doc-backlink"><span class="section-number">1.22.2.1. </span>Subsubmenu 1</a><a class="headerlink" href="#id5" title="Permalink to this heading">¶</a></h4>
 <p>Just a place holder…</p>
 </section>
 </section>
 <section id="id6">
-<h3><a class="toc-backref" href="#id44"><span class="section-number">1.22.3. </span>Submenu 3</a><a class="headerlink" href="#id6" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id44" role="doc-backlink"><span class="section-number">1.22.3. </span>Submenu 3</a><a class="headerlink" href="#id6" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 <section id="id7">
-<h3><a class="toc-backref" href="#id45"><span class="section-number">1.22.4. </span>Submenu 4</a><a class="headerlink" href="#id7" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id45" role="doc-backlink"><span class="section-number">1.22.4. </span>Submenu 4</a><a class="headerlink" href="#id7" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 <section id="id8">
-<h3><a class="toc-backref" href="#id46"><span class="section-number">1.22.5. </span>Submenu 5</a><a class="headerlink" href="#id8" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id46" role="doc-backlink"><span class="section-number">1.22.5. </span>Submenu 5</a><a class="headerlink" href="#id8" title="Permalink to this heading">¶</a></h3>
 <p>Just a place holder…</p>
 </section>
 </section>
@@ -667,11 +670,9 @@ <h3><a class="toc-backref" href="#id46"><span class="section-number">1.22.5. </s
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-         <script src="../../../_static/jquery.js"></script>
-         <script src="../../../_static/underscore.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
          <script src="../../../_static/doctools.js"></script>
-         <script src="../../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/demo/structure.html b/pytorch-sphinx-theme/docs/demo/structure.html
index b2cbd466d..c6c783f0f 100644
--- a/pytorch-sphinx-theme/docs/demo/structure.html
+++ b/pytorch-sphinx-theme/docs/demo/structure.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../../genindex.html" />
     <link rel="search" title="Search" href="../../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,8 +352,8 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="structural-elements">
-<h1><a class="toc-backref" href="#id4"><span class="section-number">1. </span>Structural Elements</a><a class="headerlink" href="#structural-elements" title="Permalink to this headline">¶</a></h1>
-<div class="contents topic" id="table-of-contents">
+<h1><a class="toc-backref" href="#id4" role="doc-backlink"><span class="section-number">1. </span>Structural Elements</a><a class="headerlink" href="#structural-elements" title="Permalink to this heading">¶</a></h1>
+<nav class="contents" id="table-of-contents">
 <p class="topic-title">Table of Contents</p>
 <ul class="simple">
 <li><p><a class="reference internal" href="#structural-elements" id="id4">Structural Elements</a></p>
@@ -380,7 +383,7 @@ <h1><a class="toc-backref" href="#id4"><span class="section-number">1. </span>St
 </ul>
 </li>
 </ul>
-</div>
+</nav>
 <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Donec lorem neque, interdum in ipsum nec,
 finibus dictum velit. Ut eu efficitur arcu, id aliquam erat. In sit amet diam gravida, imperdiet tellus eu,
 gravida nisl. Praesent aliquet odio eget libero elementum, quis rhoncus tellus tincidunt.
@@ -393,7 +396,7 @@ <h1><a class="toc-backref" href="#id4"><span class="section-number">1. </span>St
 Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.
 Pellentesque dictum dui sem, non placerat tortor rhoncus in. Sed placerat nulla at rhoncus iaculis.</p>
 <section id="document-section">
-<h2><a class="toc-backref" href="#id5"><span class="section-number">1.1. </span>Document Section</a><a class="headerlink" href="#document-section" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id5" role="doc-backlink"><span class="section-number">1.1. </span>Document Section</a><a class="headerlink" href="#document-section" title="Permalink to this heading">¶</a></h2>
 <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed condimentum nulla vel neque venenatis,
 nec placerat lorem placerat. Cras purus eros, gravida vitae tincidunt id, vehicula nec nulla.
 Fusce aliquet auctor cursus. Phasellus ex neque, vestibulum non est vitae, viverra fringilla tortor.
@@ -401,7 +404,7 @@ <h2><a class="toc-backref" href="#id5"><span class="section-number">1.1. </span>
 Aliquam erat volutpat. Maecenas eget dictum mauris. Suspendisse arcu eros, condimentum eget risus sed,
 luctus efficitur arcu. Cras ut dictum mi. Nulla congue interdum lorem, semper semper enim commodo nec.</p>
 <section id="document-subsection">
-<h3><a class="toc-backref" href="#id6"><span class="section-number">1.1.1. </span>Document Subsection</a><a class="headerlink" href="#document-subsection" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id6" role="doc-backlink"><span class="section-number">1.1.1. </span>Document Subsection</a><a class="headerlink" href="#document-subsection" title="Permalink to this heading">¶</a></h3>
 <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Etiam efficitur in eros et blandit. Nunc maximus,
 nisl at auctor vestibulum, justo ex sollicitudin ligula, id faucibus urna orci tristique nisl.
 Duis auctor rutrum orci, in ornare lacus condimentum quis. Quisque arcu velit, facilisis quis interdum ac,
@@ -411,7 +414,7 @@ <h3><a class="toc-backref" href="#id6"><span class="section-number">1.1.1. </spa
 Integer cursus ex sed magna vehicula finibus. Proin tempus orci quis dolor tempus, nec condimentum odio vestibulum.
 Etiam efficitur sollicitudin libero, tincidunt volutpat ligula interdum sed.</p>
 <section id="document-subsubsection">
-<h4><a class="toc-backref" href="#id7"><span class="section-number">1.1.1.1. </span>Document Subsubsection</a><a class="headerlink" href="#document-subsubsection" title="Permalink to this headline">¶</a></h4>
+<h4><a class="toc-backref" href="#id7" role="doc-backlink"><span class="section-number">1.1.1.1. </span>Document Subsubsection</a><a class="headerlink" href="#document-subsubsection" title="Permalink to this heading">¶</a></h4>
 <p>Donec non rutrum lorem. Aenean sagittis metus at pharetra fringilla. Nunc sapien dolor, cursus sed nisi at,
 pretium tristique lectus. Sed pellentesque leo lectus, et convallis ipsum euismod a.
 Integer at leo vitae felis pretium aliquam fringilla quis odio. Sed pharetra enim accumsan feugiat pretium.
@@ -419,7 +422,7 @@ <h4><a class="toc-backref" href="#id7"><span class="section-number">1.1.1.1. </s
 Sed finibus tortor ac nisi ultrices viverra. Duis feugiat malesuada sapien, at commodo ante porttitor ac.
 Curabitur posuere mauris mi, vel ornare orci scelerisque sit amet. Suspendisse nec fringilla dui.</p>
 <section id="document-paragraph">
-<h5><a class="toc-backref" href="#id8"><span class="section-number">1.1.1.1.1. </span>Document Paragraph</a><a class="headerlink" href="#document-paragraph" title="Permalink to this headline">¶</a></h5>
+<h5><a class="toc-backref" href="#id8" role="doc-backlink"><span class="section-number">1.1.1.1.1. </span>Document Paragraph</a><a class="headerlink" href="#document-paragraph" title="Permalink to this heading">¶</a></h5>
 <p>Pellentesque nec est in odio ultrices elementum. Vestibulum et hendrerit sapien, quis vulputate turpis.
 Suspendisse potenti. Curabitur tristique sit amet lectus non viverra. Phasellus rutrum dapibus turpis sed imperdiet.
 Mauris maximus viverra ante. Donec eu egestas mauris. Morbi vulputate tincidunt euismod. Integer vel porttitor neque.
@@ -430,13 +433,13 @@ <h5><a class="toc-backref" href="#id8"><span class="section-number">1.1.1.1.1. <
 </section>
 </section>
 <section id="structural-elements-2">
-<h1><a class="toc-backref" href="#id9"><span class="section-number">2. </span>Structural Elements 2</a><a class="headerlink" href="#structural-elements-2" title="Permalink to this headline">¶</a></h1>
+<h1><a class="toc-backref" href="#id9" role="doc-backlink"><span class="section-number">2. </span>Structural Elements 2</a><a class="headerlink" href="#structural-elements-2" title="Permalink to this heading">¶</a></h1>
 <p>Etiam turpis ante, luctus sed velit tristique, finibus volutpat dui. Nam sagittis vel ante nec malesuada.
 Praesent dignissim mi nec ornare elementum. Nunc eu augue vel sem dignissim cursus sed et nulla.
 Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.
 Pellentesque dictum dui sem, non placerat tortor rhoncus in. Sed placerat nulla at rhoncus iaculis.</p>
 <section id="id1">
-<h2><a class="toc-backref" href="#id10"><span class="section-number">2.1. </span>Document Section</a><a class="headerlink" href="#id1" title="Permalink to this headline">¶</a></h2>
+<h2><a class="toc-backref" href="#id10" role="doc-backlink"><span class="section-number">2.1. </span>Document Section</a><a class="headerlink" href="#id1" title="Permalink to this heading">¶</a></h2>
 <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed condimentum nulla vel neque venenatis,
 nec placerat lorem placerat. Cras purus eros, gravida vitae tincidunt id, vehicula nec nulla.
 Fusce aliquet auctor cursus. Phasellus ex neque, vestibulum non est vitae, viverra fringilla tortor.
@@ -444,7 +447,7 @@ <h2><a class="toc-backref" href="#id10"><span class="section-number">2.1. </span
 Aliquam erat volutpat. Maecenas eget dictum mauris. Suspendisse arcu eros, condimentum eget risus sed,
 luctus efficitur arcu. Cras ut dictum mi. Nulla congue interdum lorem, semper semper enim commodo nec.</p>
 <section id="id2">
-<h3><a class="toc-backref" href="#id11"><span class="section-number">2.1.1. </span>Document Subsection</a><a class="headerlink" href="#id2" title="Permalink to this headline">¶</a></h3>
+<h3><a class="toc-backref" href="#id11" role="doc-backlink"><span class="section-number">2.1.1. </span>Document Subsection</a><a class="headerlink" href="#id2" title="Permalink to this heading">¶</a></h3>
 <figure class="align-right" id="id3" style="width: 200px">
 <img alt="../../../_images/yi_jing_01_chien.jpg" src="../../../_images/yi_jing_01_chien.jpg" />
 <figcaption>
@@ -536,11 +539,9 @@ <h3><a class="toc-backref" href="#id11"><span class="section-number">2.1.1. </sp
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
-         <script src="../../../_static/jquery.js"></script>
-         <script src="../../../_static/underscore.js"></script>
+         <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
          <script src="../../../_static/doctools.js"></script>
-         <script src="../../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/index.html b/pytorch-sphinx-theme/docs/index.html
index 50826522b..5507cb381 100644
--- a/pytorch-sphinx-theme/docs/index.html
+++ b/pytorch-sphinx-theme/docs/index.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,7 +352,7 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <div class="toctree-wrapper compound">
-<p><span class="caption-text">Theme Documentation</span></p>
+<p class="caption" role="heading"><span class="caption-text">Theme Documentation</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="installing.html">Installation</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="installing.html#via-git-or-download">Via Git or Download</a></li>
@@ -365,7 +368,7 @@
 </ul>
 </div>
 <div class="toctree-wrapper compound">
-<p><span class="caption-text">Demo Documents</span></p>
+<p class="caption" role="heading"><span class="caption-text">Demo Documents</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="demo/structure.html">1. Structural Elements</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="demo/structure.html#document-section">1.1. Document Section</a></li>
@@ -400,7 +403,7 @@
 </ul>
 </div>
 <div class="toctree-wrapper compound">
-<p><span class="caption-text">This is an incredibly long caption for a long menu</span></p>
+<p class="caption" role="heading"><span class="caption-text">This is an incredibly long caption for a long menu</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="demo/long.html">1. Long Sticky Nav</a><ul>
 <li class="toctree-l2"><a class="reference internal" href="demo/long.html#example-menu-1">1.1. Example Menu 1</a></li>
@@ -493,11 +496,9 @@
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../" src="../../_static/documentation_options.js"></script>
-         <script src="../../_static/jquery.js"></script>
-         <script src="../../_static/underscore.js"></script>
+         <script data-url_root="../../" id="documentation_options" src="../../_static/documentation_options.js"></script>
          <script src="../../_static/doctools.js"></script>
-         <script src="../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/pytorch-sphinx-theme/docs/installing.html b/pytorch-sphinx-theme/docs/installing.html
index 2106d7395..ab4ef5e65 100644
--- a/pytorch-sphinx-theme/docs/installing.html
+++ b/pytorch-sphinx-theme/docs/installing.html
@@ -6,7 +6,7 @@
 <!--[if gt IE 8]><!--> <html class="no-js" lang="en" > <!--<![endif]-->
 <head>
   <meta charset="utf-8">
-  <meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
+  <meta name="generator" content="Docutils 0.19: https://docutils.sourceforge.io/" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0">
   
@@ -28,6 +28,8 @@
 
   <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="../../genindex.html" />
     <link rel="search" title="Search" href="../../search.html" />
   <!-- Google Tag Manager -->
@@ -250,18 +252,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../../cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -349,9 +352,9 @@
              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
               
   <section id="installation">
-<h1>Installation<a class="headerlink" href="#installation" title="Permalink to this headline">¶</a></h1>
+<h1>Installation<a class="headerlink" href="#installation" title="Permalink to this heading">¶</a></h1>
 <section id="via-git-or-download">
-<h2>Via Git or Download<a class="headerlink" href="#via-git-or-download" title="Permalink to this headline">¶</a></h2>
+<h2>Via Git or Download<a class="headerlink" href="#via-git-or-download" title="Permalink to this heading">¶</a></h2>
 <p>Symlink or subtree the <code class="docutils literal notranslate"><span class="pre">pytorch_sphinx_theme</span></code> repository into your documentation at
 <code class="docutils literal notranslate"><span class="pre">docs/_themes/pytorch_sphinx_theme</span></code> then add the following two settings to your Sphinx
 <code class="docutils literal notranslate"><span class="pre">conf.py</span></code> file:</p>
@@ -415,11 +418,9 @@ <h2>Via Git or Download<a class="headerlink" href="#via-git-or-download" title="
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="../../" src="../../_static/documentation_options.js"></script>
-         <script src="../../_static/jquery.js"></script>
-         <script src="../../_static/underscore.js"></script>
+         <script data-url_root="../../" id="documentation_options" src="../../_static/documentation_options.js"></script>
          <script src="../../_static/doctools.js"></script>
-         <script src="../../_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="../../_static/sphinx_highlight.js"></script>
      
 
   
diff --git a/quantize__bfloat16_8cu.html b/quantize__bfloat16_8cu.html
new file mode 100644
index 000000000..2489c5b92
--- /dev/null
+++ b/quantize__bfloat16_8cu.html
@@ -0,0 +1,172 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_bfloat16.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">quantize_bfloat16.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga2f1cc4b6dc6f708324855f94d558cfc1" id="r_ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">_float_to_bfloat16_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
+<tr class="separator:ga2f1cc4b6dc6f708324855f94d558cfc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2076a59fd190690f67c1eddb79b6acc4" id="r_ga2076a59fd190690f67c1eddb79b6acc4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">_bfloat16_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>)</td></tr>
+<tr class="separator:ga2076a59fd190690f67c1eddb79b6acc4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a44eca6a446116eaa006c5bd0488d62f2" name="a44eca6a446116eaa006c5bd0488d62f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44eca6a446116eaa006c5bd0488d62f2">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;Bfloat16QuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4">fbgemm_gpu::_bfloat16_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4ed2eb1cae3301906c55dc98ee5ce687" name="a4ed2eb1cae3301906c55dc98ee5ce687"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ed2eb1cae3301906c55dc98ee5ce687">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToBfloat16Quantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1">fbgemm_gpu::_float_to_bfloat16_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__fp8__rowwise_8cu.html b/quantize__fp8__rowwise_8cu.html
new file mode 100644
index 000000000..40bd56491
--- /dev/null
+++ b/quantize__fp8__rowwise_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_fp8_rowwise.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_fp8_rowwise.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__fused__8bit__rowwise_8cu.html b/quantize__fused__8bit__rowwise_8cu.html
new file mode 100644
index 000000000..16a21dab2
--- /dev/null
+++ b/quantize__fused__8bit__rowwise_8cu.html
@@ -0,0 +1,294 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_fused_8bit_rowwise.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_fused_8bit_rowwise.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af35eb9fa075d341e379886496b6f2dad" name="af35eb9fa075d341e379886496b6f2dad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af35eb9fa075d341e379886496b6f2dad">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatOrHalfToFused8BitRowwiseQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#gaff285349cb9c51a56fc418b628772b16">fbgemm_gpu::_single_or_half_precision_to_fused8bitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a360b78a6e199bcda032c8896708398db" name="a360b78a6e199bcda032c8896708398db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a360b78a6e199bcda032c8896708398db">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToFused8BitRowwiseQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga8c11c8dc06cae57b3afba79358c00e99">fbgemm_gpu::_float_to_fused8bitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2c5ae3ba26c4c71b5e42651752f6e05" name="ac2c5ae3ba26c4c71b5e42651752f6e05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2c5ae3ba26c4c71b5e42651752f6e05">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;Fused8BitRowwiseQuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#aab093a380068925d1b267452a1e255c2">fbgemm_gpu::_fused8bitrowwise_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a36f61e129797f0efa0fa02acd3bf1628" name="a36f61e129797f0efa0fa02acd3bf1628"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36f61e129797f0efa0fa02acd3bf1628">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;Fused8BitRowwiseQuantizedToFloatMixedDim&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga4c2c033e940095d20e76e9e00fe925d3">fbgemm_gpu::_fused8bitrowwise_to_float_mixed_dim_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5c42d23d15559e0fab4a67b274ac722" name="ac5c42d23d15559e0fab4a67b274ac722"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5c42d23d15559e0fab4a67b274ac722">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[5/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;Fused8BitRowwiseQuantizedToFloatOrHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#gafacdb4ec7d8f5b969c75d2127537ab16">fbgemm_gpu::_fused8bitrowwise_to_single_or_half_precision_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ed3f01bedfeee57b88e3343ebab204a" name="a5ed3f01bedfeee57b88e3343ebab204a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ed3f01bedfeee57b88e3343ebab204a">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[6/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;Fused8BitRowwiseQuantizedToHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a3aa2e594cf4bbb5cb5241c4eaa593f8a">fbgemm_gpu::_fused8bitrowwise_to_half_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afed513cf23a1957fa7f44309ed54288e" name="afed513cf23a1957fa7f44309ed54288e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afed513cf23a1957fa7f44309ed54288e">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[7/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;HalfToFused8BitRowwiseQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#adfeb2fc956b7aa5c2446a00ccbcd058e">fbgemm_gpu::_half_to_fused8bitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__fused__nbit__rowwise_8cu.html b/quantize__fused__nbit__rowwise_8cu.html
new file mode 100644
index 000000000..a1b0968f1
--- /dev/null
+++ b/quantize__fused__nbit__rowwise_8cu.html
@@ -0,0 +1,268 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_fused_nbit_rowwise.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_fused_nbit_rowwise.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9235db627f7b35c43f5a8baee9c6e73f" name="a9235db627f7b35c43f5a8baee9c6e73f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9235db627f7b35c43f5a8baee9c6e73f">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__sparse-data-cuda.html#ga3b963d0e45c2bc0060aaa974efe64b8a">fbgemm_gpu::_float_or_half_to_fusednbitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac0d21a1093187621384e9f7ee12af6f5" name="ac0d21a1093187621384e9f7ee12af6f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0d21a1093187621384e9f7ee12af6f5">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToFusedNBitRowwiseQuantizedSBHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#gaa3e8fd136e9bfa0e4d0c0016659bf708">fbgemm_gpu::_float_to_fusednbitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a04df767b706b47ca163b528c0ec49659" name="a04df767b706b47ca163b528c0ec49659"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a04df767b706b47ca163b528c0ec49659">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FusedNBitRowwiseQuantizedSBHalfToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ae0193dd7bbb4e72fc977330cc3f019a4">fbgemm_gpu::_fusednbitrowwise_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af782044b726c577b026de55ab1e37681" name="af782044b726c577b026de55ab1e37681"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af782044b726c577b026de55ab1e37681">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga07f4c02c95710472b815bdc1d7bfff19">fbgemm_gpu::_fusednbitrowwise_to_float_or_half_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8e33c20c4bfee06ceac1b42b87d40e0" name="ae8e33c20c4bfee06ceac1b42b87d40e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8e33c20c4bfee06ceac1b42b87d40e0">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FusedNBitRowwiseQuantizedSBHalfToHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga6152517943258bd3adc42b7c103a9277">fbgemm_gpu::_fusednbitrowwise_to_half_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc803cc30f01a51dcba4d3e89471a836" name="acc803cc30f01a51dcba4d3e89471a836"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc803cc30f01a51dcba4d3e89471a836">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;HalfToFusedNBitRowwiseQuantizedSBHalf&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga6e2bd64f3f9e3b36493ec955680771af">fbgemm_gpu::_half_to_fusednbitrowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__hfp8_8cu.html b/quantize__hfp8_8cu.html
new file mode 100644
index 000000000..b8b31b2eb
--- /dev/null
+++ b/quantize__hfp8_8cu.html
@@ -0,0 +1,172 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_hfp8.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">quantize_hfp8.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:gab2837424e3774fe34ba255658554a75a" id="r_gab2837424e3774fe34ba255658554a75a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">_float_to_hfp8_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
+<tr class="separator:gab2837424e3774fe34ba255658554a75a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga03a8f8825a16c6235b699886fa46e1f6" id="r_ga03a8f8825a16c6235b699886fa46e1f6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">_hfp8_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">exponent_bias</a>)</td></tr>
+<tr class="separator:ga03a8f8825a16c6235b699886fa46e1f6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a38d08a293e27467dfdda3bb72ea27596" name="a38d08a293e27467dfdda3bb72ea27596"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a38d08a293e27467dfdda3bb72ea27596">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToHFP8Quantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a">fbgemm_gpu::_float_to_hfp8_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a137d7c9cbf1612b410dd45b3bbebbea0" name="a137d7c9cbf1612b410dd45b3bbebbea0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a137d7c9cbf1612b410dd45b3bbebbea0">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;HFP8QuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6">fbgemm_gpu::_hfp8_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__msfp_8cu.html b/quantize__msfp_8cu.html
new file mode 100644
index 000000000..a2ef4eab7
--- /dev/null
+++ b/quantize__msfp_8cu.html
@@ -0,0 +1,172 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_msfp.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">quantize_msfp.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga427f81e1d8901e2fafc9611860fbd4d5" id="r_ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">_float_to_msfp_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bounding_box_size</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">min_pos</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_pos</a>)</td></tr>
+<tr class="separator:ga427f81e1d8901e2fafc9611860fbd4d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gac0c20377454dbfafcc5ac245fe6427ce" id="r_gac0c20377454dbfafcc5ac245fe6427ce"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">_msfp_to_float_gpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">input</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ebits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">mbits</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bias</a>)</td></tr>
+<tr class="separator:gac0c20377454dbfafcc5ac245fe6427ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="abba68956be833439bf5ecabfe3880300" name="abba68956be833439bf5ecabfe3880300"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abba68956be833439bf5ecabfe3880300">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToMSFPQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5">fbgemm_gpu::_float_to_msfp_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ace6d6f85efbdd32b7378b07a2e394166" name="ace6d6f85efbdd32b7378b07a2e394166"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace6d6f85efbdd32b7378b07a2e394166">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;MSFPQuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce">fbgemm_gpu::_msfp_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops_2common_8cuh.html b/quantize__ops_2common_8cuh.html
new file mode 100644
index 000000000..5ddca65c2
--- /dev/null
+++ b/quantize__ops_2common_8cuh.html
@@ -0,0 +1,162 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/common.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">common.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/TensorIterator.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;math_constants.h&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TensorUtils.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;ATen/native/TensorIterator.h&gt;</code><br />
+<code>#include &lt;ATen/native/cuda/Loops.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="quantize__ops_8cuh.html">fbgemm_gpu/quantize_ops.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="quantize__ops__utils_8h.html">fbgemm_gpu/quantize_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac84aa8e4e97b2a4675ec853e802ec4c6" name="ac84aa8e4e97b2a4675ec853e802ec4c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac84aa8e4e97b2a4675ec853e802ec4c6">&#9670;&#160;</a></span>QUANTIZE_OPS_MAX</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define QUANTIZE_OPS_MAX</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">a, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a></span>&#160;)&#160;&#160;&#160;((a) &gt; (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>) ? (a) : (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7c9f79708fed845d68b88205e5a1c70c" name="a7c9f79708fed845d68b88205e5a1c70c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c9f79708fed845d68b88205e5a1c70c">&#9670;&#160;</a></span>QUANTIZE_OPS_MIN</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define QUANTIZE_OPS_MIN</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">a, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a></span>&#160;)&#160;&#160;&#160;((a) &lt; (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>) ? (a) : (<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6">b</a>))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops_8cuh.html b/quantize__ops_8cuh.html
new file mode 100644
index 000000000..986956dcc
--- /dev/null
+++ b/quantize__ops_8cuh.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/quantize_ops.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_ops.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops__cpu_8cpp.html b/quantize__ops__cpu_8cpp.html
new file mode 100644
index 000000000..a54d5a158
--- /dev/null
+++ b/quantize__ops__cpu_8cpp.html
@@ -0,0 +1,167 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&gt;</code><br />
+<code>#include &lt;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;fbgemm/QuantUtils.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="quantize__ops__utils_8h.html">fbgemm_gpu/quantize_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26b96ceaa00c9be7dbba99ca0b772a58" name="a26b96ceaa00c9be7dbba99ca0b772a58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26b96ceaa00c9be7dbba99ca0b772a58">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops__gpu_8cpp.html b/quantize__ops__gpu_8cpp.html
new file mode 100644
index 000000000..479c4d991
--- /dev/null
+++ b/quantize__ops__gpu_8cpp.html
@@ -0,0 +1,195 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_ops_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">quantize_ops_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a0d298145c58d3db95b0838ab9e321626" name="a0d298145c58d3db95b0838ab9e321626"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d298145c58d3db95b0838ab9e321626">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToFP8RowwiseQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga31b9029d43a60ad1fc90dc6ec54af9db">fbgemm_gpu::_float_to_FP8rowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6f70026edd736cca0ec96d6369571e06" name="a6f70026edd736cca0ec96d6369571e06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6f70026edd736cca0ec96d6369571e06">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FloatToPaddedFP8RowwiseQuantized&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__quantize-ops-cuda.html#ga5043927653e4d50462b79b7f3df33223">fbgemm_gpu::_float_to_paddedFP8rowwise_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ae0af8cb484307360d889119a25a870" name="a0ae0af8cb484307360d889119a25a870"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ae0af8cb484307360d889119a25a870">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;FP8RowwiseQuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a70d90c85fad4384b23c8958a6c300ce2">fbgemm_gpu::_FP8rowwise_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a18e52d6b9f96ae0c9f7552f54808d958" name="a18e52d6b9f96ae0c9f7552f54808d958"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18e52d6b9f96ae0c9f7552f54808d958">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;PaddedFP8RowwiseQuantizedToFloat&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#afc30bb56977528d8a85e43f9aa5c2cf8">fbgemm_gpu::_paddedFP8rowwise_to_float_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops__meta_8cpp.html b/quantize__ops__meta_8cpp.html
new file mode 100644
index 000000000..3594e355d
--- /dev/null
+++ b/quantize__ops__meta_8cpp.html
@@ -0,0 +1,144 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_ops_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_ops_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;c10/core/ScalarType.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__ops__utils_8h.html b/quantize__ops__utils_8h.html
new file mode 100644
index 000000000..f013c0ff3
--- /dev/null
+++ b/quantize__ops__utils_8h.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/quantize_ops_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_ops_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/quantize__padded__fp8__rowwise_8cu.html b/quantize__padded__fp8__rowwise_8cu.html
new file mode 100644
index 000000000..d9a3effb9
--- /dev/null
+++ b/quantize__padded__fp8__rowwise_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/quantize_ops/quantize_padded_fp8_rowwise.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7caac3cc36f516c287d0977dc87384a8.html">quantize_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">quantize_padded_fp8_rowwise.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="quantize__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/radix__sort__pairs_8cu.html b/radix__sort__pairs_8cu.html
new file mode 100644
index 000000000..ad954812a
--- /dev/null
+++ b/radix__sort__pairs_8cu.html
@@ -0,0 +1,246 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils/radix_sort_pairs.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html">split_embeddings_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">radix_sort_pairs.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &lt;c10/cuda/CUDAException.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAStream.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_radix_sort.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_run_length_encode.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a4cf2c787c9111fdc77b98fcc9e690344" name="a4cf2c787c9111fdc77b98fcc9e690344"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4cf2c787c9111fdc77b98fcc9e690344">&#9670;&#160;</a></span>DEF_RADIX_SORT_PAIRS_FN</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">define</a> DEF_RADIX_SORT_PAIRS_FN</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">KeyT</a>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueT</a></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">cudaError_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">radix_sort_pairs</a>(                           \</div>
+<div class="line">      <span class="keywordtype">void</span>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_temp_storage</a>,                                          \</div>
+<div class="line">      <span class="keywordtype">size_t</span>&amp; <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">temp_storage_bytes</a>,                                    \</div>
+<div class="line">      <span class="keyword">const</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">KeyT</a>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_keys_in</a>,                                         \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">KeyT</a>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_keys_out</a>,                                              \</div>
+<div class="line">      <span class="keyword">const</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueT</a>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_values_in</a>,                                     \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">ValueT</a>* <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_values_out</a>,                                          \</div>
+<div class="line">      <span class="keyword">const</span> <span class="keywordtype">int</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_items</a>,                                           \</div>
+<div class="line">      <span class="keyword">const</span> <span class="keywordtype">int</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">begin_bit</a>,                                           \</div>
+<div class="line">      <span class="keyword">const</span> <span class="keywordtype">int</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">end_bit</a>,                                             \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">cudaStream_t</a> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">stream</a>) {                                         \</div>
+<div class="line">    <span class="keywordflow">return</span> <a class="code hl_define" href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">FBGEMM_GPU_CUB_NS_PREFIX</a> cub::DeviceRadixSort::SortPairs( \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_temp_storage</a>,                                              \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">temp_storage_bytes</a>,                                          \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_keys_in</a>,                                                   \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_keys_out</a>,                                                  \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_values_in</a>,                                                 \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">d_values_out</a>,                                                \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">num_items</a>,                                                   \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">begin_bit</a>,                                                   \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">end_bit</a>,                                                     \</div>
+<div class="line">        <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">stream</a>,                                                      \</div>
+<div class="line">        <span class="keyword">false</span>);                                                      \</div>
+<div class="line">  }</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+<div class="ttc" id="acub__namespace__postfix_8cuh_html_a12567f2486c4686871a5330dbd8e9bb4"><div class="ttname"><a href="cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4">FBGEMM_GPU_CUB_NS_PREFIX</a></div><div class="ttdeci">#define FBGEMM_GPU_CUB_NS_PREFIX</div><div class="ttdef"><b>Definition</b> cub_namespace_postfix.cuh:34</div></div>
+<div class="ttc" id="aops__utils_8h_html_a29047de4dfe891435d8254535634ac1d"><div class="ttname"><a href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a></div><div class="ttdeci">#define DLL_PUBLIC</div><div class="ttdef"><b>Definition</b> ops_utils.h:39</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8ff9c3ca029c1596694941f07c7b2dc4" name="a8ff9c3ca029c1596694941f07c7b2dc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ff9c3ca029c1596694941f07c7b2dc4">&#9670;&#160;</a></span>DEF_RADIX_SORT_PAIRS_FN() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DEF_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca8b050260de3f4f24d6bb405cbbdd85" name="aca8b050260de3f4f24d6bb405cbbdd85"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca8b050260de3f4f24d6bb405cbbdd85">&#9670;&#160;</a></span>DEF_RADIX_SORT_PAIRS_FN() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DEF_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac3e8e7f0d44c6e7d4a5aea790dca2526" name="ac3e8e7f0d44c6e7d4a5aea790dca2526"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3e8e7f0d44c6e7d4a5aea790dca2526">&#9670;&#160;</a></span>DEF_RADIX_SORT_PAIRS_FN() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DEF_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a932f303789b405fceb31dd0f40f10d43" name="a932f303789b405fceb31dd0f40f10d43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a932f303789b405fceb31dd0f40f10d43">&#9670;&#160;</a></span>DEF_RADIX_SORT_PAIRS_FN() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DEF_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/reset__weight__momentum_8cu.html b/reset__weight__momentum_8cu.html
new file mode 100644
index 000000000..a302d86da
--- /dev/null
+++ b/reset__weight__momentum_8cu.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/reset_weight_momentum.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">reset_weight_momentum.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/search.html b/search.html
index 297368a34..8d1c8d7a4 100644
--- a/search.html
+++ b/search.html
@@ -27,6 +27,8 @@
 
   <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
   <!-- <link rel="stylesheet" href="_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="_static/css/theme.css" type="text/css" />
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="#" />
   <!-- Google Tag Manager -->
@@ -249,18 +251,19 @@
               
             
             
-              <p><span class="caption-text">FBGEMM_GPU General Info</span></p>
+              <p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU General Info</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="general/BuildInstructions.html">Build Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/InstallationInstructions.html">Installation Instructions</a></li>
 <li class="toctree-l1"><a class="reference internal" href="general/TestInstructions.html">Testing FBGEMM_GPU</a></li>
+<li class="toctree-l1"><a class="reference internal" href="general/DocsInstructions.html">Contributing Documentation</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU Python API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU Python API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="python-api/table_batched_embedding_ops.html">Table Batched Embedding (TBE) Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="python-api/jagged_tensor_ops.html">Jagged Tensor Operators</a></li>
 </ul>
-<p><span class="caption-text">FBGEMM_GPU C++ API</span></p>
+<p class="caption" role="heading"><span class="caption-text">FBGEMM_GPU C++ API</span></p>
 <ul>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/sparse_ops.html">Sparse Data Operators</a></li>
 <li class="toctree-l1"><a class="reference internal" href="cpp-api/quantize_ops.html">Quantization Operators</a></li>
@@ -405,11 +408,9 @@
 
      
        <script type="text/javascript" id="documentation_options" data-url_root="./" src="_static/documentation_options.js"></script>
-         <script src="_static/jquery.js"></script>
-         <script src="_static/underscore.js"></script>
+         <script data-url_root="./" id="documentation_options" src="_static/documentation_options.js"></script>
          <script src="_static/doctools.js"></script>
-         <script src="_static/language_data.js"></script>
-         <script async="async" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.7/latest.js?config=TeX-AMS-MML_HTMLorMML"></script>
+         <script src="_static/sphinx_highlight.js"></script>
          <script src="_static/searchtools.js"></script>
          <script src="_static/language_data.js"></script>
      
diff --git a/search/all_0.js b/search/all_0.js
index 41eb52c4a..a844e2673 100644
--- a/search/all_0.js
+++ b/search/all_0.js
@@ -1,9 +1,70 @@
 var searchData=
 [
-  ['_5fbfloat16_5fto_5ffloat_5fgpu_0',['_bfloat16_to_float_gpu',['../group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fbfloat16_5fgpu_1',['_float_to_bfloat16_gpu',['../group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fhfp8_5fgpu_2',['_float_to_hfp8_gpu',['../group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fmsfp_5fgpu_3',['_float_to_msfp_gpu',['../group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5',1,'fbgemm_gpu']]],
-  ['_5fhfp8_5fto_5ffloat_5fgpu_4',['_hfp8_to_float_gpu',['../group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6',1,'fbgemm_gpu']]],
-  ['_5fmsfp_5fto_5ffloat_5fgpu_5',['_msfp_to_float_gpu',['../group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce',1,'fbgemm_gpu']]]
+  ['_5f_5falign_5f_5f_0',['__align__',['../namespacefbgemm__gpu.html#a9a25aa8cfdd2801c4576fb7111ca1e34',1,'fbgemm_gpu::__align__(32) float8'],['../namespacefbgemm__gpu.html#ac5ef7f218ca22e4dd93d4161458006f6',1,'fbgemm_gpu::__align__(64) float_16'],['../namespacefbgemm__gpu.html#a5365b81a771afde2d770210e45b73bdb',1,'fbgemm_gpu::__align__(8) half4'],['../namespacefbgemm__gpu.html#ad5af23eb5e28d14f6089e7a18b0ed0d5',1,'fbgemm_gpu::__align__(16) half8']]],
+  ['_5f_5fhalf2_5fto_5fui_1',['__HALF2_TO_UI',['../fbgemm__cuda__utils_8cuh.html#ab78d230e0bbda883a8f34ca1e31d0929',1,'fbgemm_cuda_utils.cuh']]],
+  ['_5f_5fhas_5finclude_2',['__has_include',['../_c_make_c_compiler_id_8c.html#ae5510d82e4946f1656f4969911c54736',1,'__has_include:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#ae5510d82e4946f1656f4969911c54736',1,'__has_include:&#160;CMakeCXXCompilerId.cpp']]],
+  ['_5f_5flaunch_5fbounds_5f_5f_3',['__launch_bounds__',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165',1,'__launch_bounds__(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row(const pta:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a419781019c14d9d59041ca2a127d2c1a',1,'__launch_bounds__(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row&lt; uint8_t:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#af1eb0a147a3656c72bff10b68454c23b',1,'__launch_bounds__(kBackwardMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row(const pta:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a422cac14ead186e7d1ffdea24dbb41a2',1,'__launch_bounds__(kBackwardMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row&lt; uint8_t:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#afe75d514238f01862b4416d072a457ab',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_kernel(const pta:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a794e5a8311030e080f19bcaf98cbaa3e',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_kernel&lt; uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aab67c7ff63262ed7ee2955ab54fd6cdb',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_small_kernel(const pta:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a09ab46cf824219bc6c7ca9a47e3d90cd',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_small_kernel&lt; uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#aec97e553558684266790dc906158a105',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a60482659dcb929a1f6a60dda564f4cdc',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a50cb7dfbe0185fcbd26cfd0156710acc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a0ed9968b042349d756a20bfc8c31c22d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a7f198a235aa56925b36d48d029f9a26a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abb3af3ab6c99e8609b2199129b2a6c3d',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2ca5c0c3b7f03146b0739206987a8efb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad265ff9fd07f592055eb413d73ff59a3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a479b62e3a680d0eb604b0d99c497dc44',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a16936797cd22aeea32b40dcc55e1d73f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a665c5d75524a34cec6f5b5258b182d7a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a7729be76298454212379af9803e78cf9',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aeb6425d7cade524ae83445d8ffcad95a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#ada6a5fbef27c4a4a31a9b8794e15442e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a8a0814be275ca40dd482231bf8be61ef',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abcaa8e0b99a97add31e16f0454bd57d3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a30fd75bf7de9f2dd4c1af90a76cc4cab',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a43a11629fc716aa3fc2efce282ade1bf',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a1e6a8699bf2c46477da50582e38ee237',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae3a9242f5ffd888400f08b8c1662cc61',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aa7724fd36f338edda8cec8fbce0dcc3f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aaa0f0d28eaca058bde829af48b4a9b93',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a141a421e122929281f3a968d7181075d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#aa53241ccd067fda3b4f745364d104ae7',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#aef74039cc67d8a29f2964dd2ead5c884',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a8005f4419a0e99b1adc8ba836e2bacc4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#af4e9ad9da78c796024828e400596398e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abbbfbac2a0d5a12edfd4fa6e476f5089',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a727c25d68451d781ee3328a76b544770',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a942a80794035682b67bf75531af7ea76',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a02950b6e35152a847c545ef90af6c315',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a46c9fa7a8cf628e30c5bcbd6713846b2',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#adf6d412fe63bcfdcd84fc4e45f616217',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a360c18a2f091431cf7f15e6ac14e848a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a60ab111bc496bd3b843b3d73350f6695',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abe773e17b7f19a70a10efe7bf1763c07',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#ad49c5c5e6c69ba836c2c3728d383cd5c',1,'__launch_bounds__(kForwardMaxThreads) void dense_embedding_codegen_grad_indice_weights_kernel(const pta:&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a71d10fab767a3f6a4c9845432b7c673b',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a134107427281e66b9bdc1f05e0ed2006',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a321e6c7a5bc2c920f083dadb4d023bae',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a705c39686bcf17986ce0182b31944a82',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a8f6c6ea91c21be19960e453b8f83698b',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#aa068d67521003fac6c5013d12698b228',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4d92990636a3fcdbe762a413cc96c642',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a9629d38b5ab429da94bb1d5099042123',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a044189dd94a5b69db982c5e78a8258f4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a44794beb7b535ee85a06027407e9578d',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#aec8fd1dccb91dec69eee635d8cc8cae3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ae68abaaf02536c2e20decd2ca4daef60',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa9d0b42dc9a6b6c25005e5adc6a412e3',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#af2bc792b1cf28a27ebfc0866b059fa81',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a502bf7dfa5a02ec71b77763a65ec91c5',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a8026675b09ae447bd48ab0a854ea28bf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aac66a737c59bab7e9f767b1e38d5f1d3',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#afd63238f6b7c4a1e468568bda42bb3e0',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a4e2287d8d0e80b53a592337a64570d66',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a11d09ebd4c4b65fb35d265de845d73fc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#afa2ba02eba70da5c0a8fdcd8509e7e77',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a61e7f43722eeda4e4234e1af525ae46e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afcf8fbf4f5013c1082ce86fa5c3a5fd4',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ab184e11501d6d031e538c60ef66a8342',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a8ea3bce56ea941e3716f81220ab88fe5',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aaa9702e86f8ed1788c7796017bdd404c',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a0c5ac630cac3e582871b2521984d3691',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af7be11e596974198a45beaacc4d9db0f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a1be3f22e4eb6db21e09d922580c54faf',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a84b86dee7ee70d3e3ba5ae6f466c6f0e',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a89a6fc31913b2347216065f4655b82ff',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a584ad4898a3e03f279eb3a39c419735e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#aa2038bd1822625bd55a38eed4240c39a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#ae41fadf6abfe1e00dccedd18b90dab32',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a9ba65eca59bd0b29e87b4adb5a444d1b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a60776cad67cb695e9768c1ce170aed12',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#adb6e98291bfdb46d09389b2b453e54b2',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab6d47d46fccfb5d973f8ff2a44bff7a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a9d6d3f6a070db2a520adb97ff89e7f1c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#adda6d498fce399be1bb4ff6c884cd325',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a3c38980139cb0d10bc2d195479a69fb4',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a55340037f2150aa438d4cb6675412e7e',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ae53e64a9190921226cba0e54595de4af',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6c8f5295879f30dac04285180744b05b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a49683c14f18b75fafd2a5ce3f90c7d61',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a78a9d364ed7043a1412228b17a0406a1',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#acd2e3179752c56bfdde47a8ad7a00220',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a4d483ee9ae74898f27f8070e41c4fced',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a440dc2054a1346ad291f617540be2e25',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#afaf745a30243c0c755429f1b1d465f2d',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#ab435787b7738dff4daa1eca5ed8725dd',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a809fb9fd9f5386090e58c2fdd7f05bbd',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a250b8485cb708a3fe1d789613014b238',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a4996180a982a92cb9151e2557777d77a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae96e8ad601ac1adb859d3aec074bb439',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae28f985f3c5d59410f3fd6c2a99d9320',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a59f00431d3950b72f6e7d89baf3fde0b',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f233fc13ea7dbc092ed3c22b2bf1a7f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a965b9c456ca6a6dffb664f585401250d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a69d372f391200ef3cafedad093a5470f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ad23ff52f91efba0cbff48134c3a42bc4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa9475900cea03cb0a61e0e16932e01a4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aeea6e4ebbd44a284f8e1078cf3efdaad',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a75a810317afae4c2a93af95f80855d42',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a41774547fd61442443c1967f1a8e8b13',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa41bfc39f4114bbad7186e4b9b480da3',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a84d2573599cb14db8200acded518dd53',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ad3410f599c95c3268541e72f9684f82b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#aee08a6146cbf90f361a828e6d2ff4ede',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a12bca8c5fdd115d24668beab2bb8ea27',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae203f025f99b18448dfd355a519c4121',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a87a9718ff816d6e1bdd9dca8e067e341',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a84dcaeb939254f551d6c356d1eca8747',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#af8829bdb0d543a40bb769900d36ea13e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae9187ee78b193e34f92875da955dc6de',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae7b604d06f2afe4b8d99b94b6a7ca46f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a65ebc941a004af813be547c2114c6eca',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aaba75f921548599cff242a4033a381c9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad0d4a168e8e591add8c872d4c2fff64a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#afbc119c8f230ecbf041ca9d852021a4a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a634a690ed27c50d8308bcc0a9bf85acc',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#ad38fb7b8c66635da0517434c661ef2e2',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ac9d49c8094b87daf6025d9195437119e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a86d693b20d7be5e068994e693d970104',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ad7474c2dcf75a987f9526e730542ae16',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a76005fdee1a342df4b951b9191967576',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a73ddb7ffe3131b43c027bed87a21da0c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#ad386be3805dc66bcebfcc75ae6ce20ce',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a557205856561135a510a45e915bc0714',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a866fa5e6f036f9befaef0a014527b214',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a15977bf39e5dbde54bc2d1176a9272b9',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a4c67d23288adf2fc636e9db4c30bfa5e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a18e29f7653534f3a75e41cf3056d2634',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#ad0f3c1412b7b4ddb2f3c5262b27f5b46',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a56d820ab8e2e5c1e815ecbe5e906075e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#aaecc4ec4c793272693a37f0e027dfb93',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a254195fbabfff3c3ad9ba04db100afae',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a2fdb05c57c2efe83f57ce0ccfe97f861',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a28a51c35ffb6aac4d6b35c9b87960129',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a303830fd0513ecd4eb232556376ad2ff',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abacbb190c3b418788aa37c065b93e703',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6f94595430b5a0e8c1597b72f210095f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ae73b050da138bd46bcb186f630a45f1e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a0f05baa1d7dca3d78338fcd70e11487c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a1296e33305fd2cde7e9e34e18e7e7905',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a49dd26094cead9644cbc35c29bb5bb21',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a709a4f70083ce173ce40562aa52ad3c8',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abf79428f3dcf0b60bcff9074d587aeaf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a99c23e8020a9ae93a0d0d429c6940707',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a920aba769ec4eba77d74c4cce2f0aa5a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aacedf2a727684a316ae18abf5670f8e8',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a9354545fca8047a3359cc39269e4531f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a158fb407fba50cda959d3a60cbc01d91',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a0344106c25fea0c6358540ff4bd536f8',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ade29dc18e73de993e107177d9568fbdf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a913d8fc72158bf301f064c0e60657a18',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a79b96d6a0be54ea86ebd1cadeedd2068',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a66e6adb0beac238f39d443dffa3c0161',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#ad4cbc31bac8a8d965f3549045cd85999',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a30ae1e9efc40a515dca89e5e3ef46565',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4987b540b661f1caa132231f415c45a9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abeb949f70e925c2f8011d973d75645fc',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a08d8db556761e8e68193b2cc8a32a1cc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ac9a5abe82611fbf748e346094a7b24b2',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae73620aca9ffc6e0cfd3b9cb594bdaf0',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a8275b2b19c2713679e0404cfc50cfc4f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2af51d716ed8d2b1a926e0f237b76f71',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#ad63ba5d695275d09b7f72a2e3fc6c124',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#afd015e1d0e79f14de8ed5bdf578c81df',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc14cf31cc4a8f906bc7f25d594fafc1',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a63e7a313c891f643c307bd05041a5b54',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#aaddcf08714b3cc33953d207c24e0be7f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a320b7cb4717a06125d1e05149e7414a9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6736b927e85af06f2a8f64b95a527f35',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aec3f0f560b496881e95413f483dc0c32',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a1bac18bde859aad7fbfb3871a0bacf37',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#aaa0317297f080a5b537f22049d8ecbbe',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a9c866240eb5eb8df0da4e1ee803e04cf',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a040a74b95b542902bfb38bacd03202eb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#aa77ffcc8cedf9fe2668e96e9305bdccb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a02bd16452698dd0ae512e183e1ed25bb',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#aab426569c3d6a90703854ec88079c3cf',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ab2b8f92ece6c5a09d11a65969626378d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac60290f3d38a825226fe8014a9274e3d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ca2ae3bf6df90dd1f3a4bf8b534231e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#ac83482e2c195bd6662609604217a4903',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a412bd503e722e4451e55ef89a4bb3649',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a5cbbacf7ec8ecfad9f032e7217474f71',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__split__grad_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_find_long_segments(const pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#aea453d06a5b06a7263bbb3c3c598b805',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_count_unique_indices_kernel(const pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#acfcb5a71381871c2d136a1e7ffc68b4c',1,'__launch_bounds__(kMaxThreads) void grad_mean_vbe_kernel(pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#a9cbee37a9474b3f03b3e585c448b63ee',1,'__launch_bounds__(kMaxThreads) void grad_mean_kernel(pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a422182213e14442c911aa3ba3ed18a58',1,'__launch_bounds__(kForwardMaxThreads) void split_embedding_codegen_grad_indice_weights_vbe_kernel(const pta:&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ab27358be96fd39a3d879e0e3f942c616',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a830a55ef37b6607a42e4b4cbb6889aa5',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a0178272d43da8f09567a976c98e4617c',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a13a4edf8545bd07a774fe7420e8d397b',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aa128173842fe96c64a581b2efdd5fe7e',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a38384adec04c76c7f4267c8c1cdc7ff7',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_small_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a40c420d5aadf8202b8a9de25931c44ff',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_weighted_kernel(const pta:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aa272d7ae5549cc1f16cb4761f3edf890',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_weighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#adf462393afe5c0c395c48cf4f889c6f8',1,'nbit::__launch_bounds__(WarpsPerBlock *kWarpSize) __global__ void FP16_split_embedding_codegen_forward_unweighted_kernel_small_L(const pta'],['../namespacenbit.html#aced6599a5180c2faaff5bbb9bc92f147',1,'nbit::__launch_bounds__(4 *kWarpSize) __global__ void FP16_split_embedding_codegen_forward_unweighted_kernel_small_L&lt; int32_t'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ab08dd38a042ee1b012a6db152e28df6d',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a41deb3b48278a02504f49a2a3dc15cd8',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5ea0ab17f6d9eefd8f00e171c4d8b424',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9b1f7936d16c021a06b52e10047d17c9',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae658cdd019bf968ffa65e519118af108',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#af345685cdddd68d8304b0804863bc611',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a4c26c8149d8b4a96823082303a657531',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a98033ae44aee4b9db7201fdad50c28db',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a640269bb96d2014f8c117163f09d8228',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a718566769c1ceda303b72d8876532ea6',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a02d4931cef892bdaf44d3ab510f0d655',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_vbe_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a95e359c3e33b1c2fcc6bb83a101c998f',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_vbe_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a0f7cdacc2963885ca7eddcf74c44c1e7',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_kernel(const pta:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a183af91deddd1a5f4c5d1657476d2594',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cf7d29de243a1d3d643b7f99420ca73',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a2b31286ebfaa57f2a8e43418dc0cc2bc',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_vbe_kernel(const pta:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a4e5e2097a867f5ac61d945360d16e1ed',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_vbe_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#ab54a42bb86f9a913d382b4938e3b023f',1,'__launch_bounds__(kMaxThreads) void split_rowwise_adagrad_update_kernel(at:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a34f0bcf2172442db1cd089b529e81d11',1,'__launch_bounds__(kMaxThreads) void split_rowwise_adagrad_update_kernel&lt; uint8_t:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu'],['../embedding__backward__split__grad__template_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_find_long_segments(const pta:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__grad__template_8cu.html#aea453d06a5b06a7263bbb3c3c598b805',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_count_unique_indices_kernel(const pta:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__kernel__cta__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd',1,'__launch_bounds__(kMaxThreads) void:&#160;embedding_backward_split_kernel_cta_template.cu'],['../embedding__backward__split__kernel__warp__template_8cu.html#aa63bd2cb4cfc6b18191236e0a85bdd26',1,'__launch_bounds__(kBackwardMaxThreads) void:&#160;embedding_backward_split_kernel_warp_template.cu'],['../embedding__backward__split__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd',1,'__launch_bounds__(kMaxThreads) void:&#160;embedding_backward_split_template.cu'],['../embedding__bounds__check_8cu.html#a9fcdcf37685cd2ec9b88dfac7e77aaaa',1,'__launch_bounds__(kMaxThreads) void bounds_check_indices_kernel(const at:&#160;embedding_bounds_check.cu'],['../namespacenbit.html#a0a75b5eade7f9536629ce45b5827fb31',1,'nbit::__launch_bounds__()'],['../embedding__forward__split__kernel__nobag__small__template_8cu.html#a5c289e92014011ec16430dabf2272ae8',1,'__launch_bounds__(kForwardMaxThreads) __global__ void:&#160;embedding_forward_split_kernel_nobag_small_template.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a9bbd05d6885ea75e7564678a52104538',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_:&#160;embedding_forward_split_kernel_v2_template.cu'],['../embedding__optimizer__split__kernel__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900',1,'__launch_bounds__(kMaxThreads) void split_:&#160;embedding_optimizer_split_kernel_template.cu'],['../embedding__optimizer__split__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900',1,'__launch_bounds__(kMaxThreads) void split_:&#160;embedding_optimizer_split_template.cu'],['../bench__utils_8cuh.html#a59e0073dcf6e90b2d7a7b38f6210cb50',1,'__launch_bounds__(kMaxThreads) void flush_gpu(char *d_flush:&#160;bench_utils.cuh'],['../namespacefbgemm__gpu.html#a17d5a2e40c83e6e3f5c68e375bf468f7',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) __global__ void embedding_inplace_update_kernel(at'],['../namespacefbgemm__gpu.html#ac93e7c311a1d26fbe8815c8b34a6bde4',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void pruned_array_lookup_from_row_idx_kernel(const at'],['../namespacefbgemm__gpu.html#a50af77e9607a7a96addff8aa8e5e4508',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void to_dense_segment_value_kernel(const int64_t num_lengths'],['../namespacefbgemm__gpu.html#a28846f89e09ae2fc064e73142d83ceef',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_dense_bmm_kernel(const pta'],['../namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_jagged_elementwise_dense_output_kernel_(const pta'],['../namespacefbgemm__gpu.html#afd2e24ffed8f057a2092d699b4cb3cb0',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_index_add_2d_kernel(at'],['../namespacefbgemm__gpu.html#ac59415a66e49753fb42195f0d816c7c2',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void _block_bucketize_sparse_features_cuda_kernel2(int lengths_size'],['../transpose__embedding__input_8cu.html#a91943a24b789081d81916b94ee7789ad',1,'__launch_bounds__(kMaxThreads) void linearize_index_kernel(const at:&#160;transpose_embedding_input.cu'],['../transpose__embedding__input_8cu.html#aee01a74e30c13b20ffba0c0737c44425',1,'__launch_bounds__(kMaxThreads) void linearize_index_index_select_kernel(const at:&#160;transpose_embedding_input.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#a7d15f4b6131224480844be177fe6b28d',1,'__launch_bounds__(kMaxThreads) void masked_index_put_kernel(at:&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#aac79184e1b6e3d831580eba191b6da2e',1,'__launch_bounds__(kMaxThreads) void masked_index_put_kernel(at:&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['_5fbfloat16_5fto_5ffloat_5fcpu_4',['_bfloat16_to_float_cpu',['../namespacefbgemm__gpu.html#ad8c67a657c3008d1d87472f216f7908f',1,'fbgemm_gpu']]],
+  ['_5fbfloat16_5fto_5ffloat_5fgpu_5',['_bfloat16_to_float_gpu',['../group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4',1,'fbgemm_gpu']]],
+  ['_5fblock_5fbucketize_5fsparse_5ffeatures_5fcpu_6',['_block_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#adaf7cd0195ff361555f35a017c018d25',1,'fbgemm_gpu']]],
+  ['_5fbucketize_5fsparse_5ffeatures_5fcpu_7',['_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a1f2b214db9aa3f8887c267c0ea9f5edf',1,'fbgemm_gpu']]],
+  ['_5fcat_5fint_5ftensors_8',['_cat_int_tensors',['../namespacefbgemm__gpu.html#acd8fa4397185c592f5eac101b42504a6',1,'fbgemm_gpu']]],
+  ['_5fcat_5fint_5ftensors_5fwith_5fpadding_9',['_cat_int_tensors_with_padding',['../namespacefbgemm__gpu.html#a1376d05f5d6efb4fbdb869e391702adf',1,'fbgemm_gpu']]],
+  ['_5fcat_5fper_5fsample_5fweights_5flist_10',['_cat_per_sample_weights_list',['../namespacefbgemm__gpu.html#a0eec17207e4a69da15dae845d02721e5',1,'fbgemm_gpu']]],
+  ['_5fdispatch_5femb_5fcache_5ftypes_11',['_DISPATCH_EMB_CACHE_TYPES',['../dispatch__macros_8h.html#a8a3aad8de22734b1397d813a855528e1',1,'dispatch_macros.h']]],
+  ['_5fexpand_5finto_5fjagged_5fpermute_5fcpu_5fkernel_12',['_expand_into_jagged_permute_cpu_kernel',['../namespacefbgemm__gpu.html#ac339123bb72d7421fca2d2b56821f02a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5for_5fhalf_5fto_5ffusednbitrowwise_5fgpu_13',['_float_or_half_to_fusednbitrowwise_gpu',['../group__sparse-data-cuda.html#ga3b963d0e45c2bc0060aaa974efe64b8a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fbfloat16_5fcpu_14',['_float_to_bfloat16_cpu',['../namespacefbgemm__gpu.html#a51665269174ef625316e519465a67839',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fbfloat16_5fgpu_15',['_float_to_bfloat16_gpu',['../group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffp8rowwise_5fgpu_16',['_float_to_FP8rowwise_gpu',['../group__quantize-ops-cuda.html#ga31b9029d43a60ad1fc90dc6ec54af9db',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffp8rowwise_5fgpu_5ft_17',['_float_to_FP8rowwise_gpu_t',['../namespacefbgemm__gpu.html#a6c5dca8da7ca5c5f89ecdc816745ba29',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fcpu_5fout_18',['_float_to_fused8bitrowwise_cpu_out',['../group__quantize-data-cpu.html#gad38a9310258acccab8a017c1616034d0',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fcpu_5fout_5ft_19',['_float_to_fused8bitrowwise_cpu_out_t',['../namespacefbgemm__gpu.html#a7f58b5ea1ea6cd38a42f73e5d688bb2c',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fgpu_20',['_float_to_fused8bitrowwise_gpu',['../group__quantize-ops-cuda.html#ga8c11c8dc06cae57b3afba79358c00e99',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fgpu_5ft_21',['_float_to_fused8bitrowwise_gpu_t',['../namespacefbgemm__gpu.html#a16bbb8557f4229489d966bb1d11bd00c',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fcpu_22',['_float_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a29553ad77238659bb86c14842103d1d5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fgpu_23',['_float_to_fusednbitrowwise_gpu',['../group__quantize-ops-cuda.html#gaa3e8fd136e9bfa0e4d0c0016659bf708',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fgpu_5ft_24',['_float_to_fusednbitrowwise_gpu_t',['../group__quantize-ops-cuda.html#ga02c8f9158646d9b16efbd3853711f56a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fhfp8_5fcpu_25',['_float_to_hfp8_cpu',['../namespacefbgemm__gpu.html#a70e9b9692aae9789f0a3804b9d12efe5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fhfp8_5fgpu_26',['_float_to_hfp8_gpu',['../group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fmsfp_5fgpu_27',['_float_to_msfp_gpu',['../group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fpaddedfp8rowwise_5fgpu_28',['_float_to_paddedFP8rowwise_gpu',['../group__quantize-ops-cuda.html#ga5043927653e4d50462b79b7f3df33223',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fpaddedfp8rowwise_5fgpu_5ft_29',['_float_to_paddedFP8rowwise_gpu_t',['../namespacefbgemm__gpu.html#a1d80140f030f2ca22fd14560e2d8aa42',1,'fbgemm_gpu']]],
+  ['_5ffp8rowwise_5fto_5ffloat_5fgpu_30',['_FP8rowwise_to_float_gpu',['../namespacefbgemm__gpu.html#a70d90c85fad4384b23c8958a6c300ce2',1,'fbgemm_gpu']]],
+  ['_5ffp8rowwise_5fto_5ffloat_5fgpu_5ft_31',['_FP8rowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#ac8931bd574641641dc69eadaae32efe3',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fcpu_5fout_32',['_fused8bitrowwise_to_float_cpu_out',['../group__quantize-data-cpu.html#gabeb6675833a5b14e0a0d01385770a771',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fcpu_5fout_5ft_33',['_fused8bitrowwise_to_float_cpu_out_t',['../namespacefbgemm__gpu.html#acc6b77e9be7ff8c2e5f16297fa6fad38',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fgpu_34',['_fused8bitrowwise_to_float_gpu',['../namespacefbgemm__gpu.html#aab093a380068925d1b267452a1e255c2',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fgpu_5ft_35',['_fused8bitrowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#a25d0793a9d1fe66bccad409791738b7b',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fmixed_5fdim_5fgpu_36',['_fused8bitrowwise_to_float_mixed_dim_gpu',['../group__quantize-ops-cuda.html#ga4c2c033e940095d20e76e9e00fe925d3',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5fhalf_5fgpu_37',['_fused8bitrowwise_to_half_gpu',['../namespacefbgemm__gpu.html#a3aa2e594cf4bbb5cb5241c4eaa593f8a',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5fsingle_5for_5fhalf_5fprecision_5fgpu_38',['_fused8bitrowwise_to_single_or_half_precision_gpu',['../group__quantize-ops-cuda.html#gafacdb4ec7d8f5b969c75d2127537ab16',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fcpu_39',['_fusednbitrowwise_to_float_cpu',['../namespacefbgemm__gpu.html#aa6141e72712885a0c89d74829be2fe6a',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fgpu_40',['_fusednbitrowwise_to_float_gpu',['../namespacefbgemm__gpu.html#ae0193dd7bbb4e72fc977330cc3f019a4',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fgpu_5ft_41',['_fusednbitrowwise_to_float_gpu_t',['../group__quantize-ops-cuda.html#gae1e827b74f0825dc4135e68c10e443b3',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5for_5fhalf_5fgpu_42',['_fusednbitrowwise_to_float_or_half_gpu',['../group__quantize-ops-cuda.html#ga07f4c02c95710472b815bdc1d7bfff19',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5fhalf_5fgpu_43',['_fusednbitrowwise_to_half_gpu',['../group__quantize-ops-cuda.html#ga6152517943258bd3adc42b7c103a9277',1,'fbgemm_gpu']]],
+  ['_5fgeneric_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_5fkernel_44',['_generic_histogram_binning_calibration_by_feature_cpu_kernel',['../namespacefbgemm__gpu.html#accd75a24d809f4322a18bfb12f47b343',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffused8bitrowwise_5fcpu_5fout_45',['_half_to_fused8bitrowwise_cpu_out',['../namespacefbgemm__gpu.html#a23bfcbc4afa5dd7d35ee03b7f23840a9',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffused8bitrowwise_5fgpu_46',['_half_to_fused8bitrowwise_gpu',['../namespacefbgemm__gpu.html#adfeb2fc956b7aa5c2446a00ccbcd058e',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffusednbitrowwise_5fgpu_47',['_half_to_fusednbitrowwise_gpu',['../group__quantize-ops-cuda.html#ga6e2bd64f3f9e3b36493ec955680771af',1,'fbgemm_gpu']]],
+  ['_5fhfp8_5fto_5ffloat_5fcpu_48',['_hfp8_to_float_cpu',['../namespacefbgemm__gpu.html#aaa8438f606e84d5cb07827759163bec6',1,'fbgemm_gpu']]],
+  ['_5fhfp8_5fto_5ffloat_5fgpu_49',['_hfp8_to_float_gpu',['../group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6',1,'fbgemm_gpu']]],
+  ['_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_5fkernel_50',['_histogram_binning_calibration_by_feature_cpu_kernel',['../namespacefbgemm__gpu.html#adce89aa38a4a22058ec42b5077bbe23a',1,'fbgemm_gpu']]],
+  ['_5fhistogram_5fbinning_5fcalibration_5fcpu_5fkernel_51',['_histogram_binning_calibration_cpu_kernel',['../namespacefbgemm__gpu.html#a7639f61a587aa5052c488fbd00d3784b',1,'fbgemm_gpu']]],
+  ['_5finvert_5fpermute_5fcpu_5fkernel_52',['_invert_permute_cpu_kernel',['../namespacefbgemm__gpu.html#a7a8e9e91365de25b995833c08eb32eff',1,'fbgemm_gpu']]],
+  ['_5fmsfp_5fto_5ffloat_5fgpu_53',['_msfp_to_float_gpu',['../group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce',1,'fbgemm_gpu']]],
+  ['_5fpaddedfp8rowwise_5fto_5ffloat_5fgpu_54',['_paddedFP8rowwise_to_float_gpu',['../namespacefbgemm__gpu.html#afc30bb56977528d8a85e43f9aa5c2cf8',1,'fbgemm_gpu']]],
+  ['_5fpaddedfp8rowwise_5fto_5ffloat_5fgpu_5ft_55',['_paddedFP8rowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#a0c0b93e239757d9564c51f8922f17554',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f1d_5findices_5fweights_5fkernel_5fcpu_56',['_permute_1D_indices_weights_kernel_cpu',['../namespacefbgemm__gpu.html#af0e07ade6f2b89bf71c344aac8106b59',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f1d_5flengths_5fcpu_5fkernel_57',['_permute_1D_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a8dfcdb2c902cf1c4e5d0ed916d5fe779',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f2d_5findices_5fweights_5fkernel_5fcpu_58',['_permute_2D_indices_weights_kernel_cpu',['../namespacefbgemm__gpu.html#acad68edeefe7a7710f729cdc56876851',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f2d_5flengths_5fcpu_5fkernel_59',['_permute_2D_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a72c447e3b6d38b548d89ebc464e2d469',1,'fbgemm_gpu']]],
+  ['_5fpermute_5fdata_5fkernel_5fcpu_60',['_permute_data_kernel_cpu',['../namespacefbgemm__gpu.html#a2fb715b347e075f3331083905cdaadfb',1,'fbgemm_gpu']]],
+  ['_5fpermute_5fembeddings_5fkernel_5fcpu_61',['_permute_embeddings_kernel_cpu',['../namespacefbgemm__gpu.html#a6987e1403a25c256168873616dffbdf6',1,'fbgemm_gpu']]],
+  ['_5fpermute_5flengths_5fcpu_5fkernel_62',['_permute_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a4c7749afd2c661b1d302268035fde42b',1,'fbgemm_gpu']]],
+  ['_5fsegment_5fsum_5fcsr_5fcpu_5fkernel_63',['_segment_sum_csr_cpu_kernel',['../namespacefbgemm__gpu.html#ade08c8b174b0ecbb99d01ad87b4da0b3',1,'fbgemm_gpu']]],
+  ['_5fsingle_5for_5fhalf_5fprecision_5fto_5ffused8bitrowwise_5fgpu_64',['_single_or_half_precision_to_fused8bitrowwise_gpu',['../group__quantize-ops-cuda.html#gaff285349cb9c51a56fc418b628772b16',1,'fbgemm_gpu']]],
+  ['_5fupdate_5fkernel_65',['_update_kernel',['../embedding__optimizer__split__kernel__template_8cu.html#afab484072b9b8381500b14e31ba49364',1,'_update_kernel(at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; dev_weights, at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; uvm_weights, at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_dev_indices, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const int32_t max_D, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, {{ args.split_kernel_args|join(&quot;, &quot;) }}):&#160;embedding_optimizer_split_kernel_template.cu'],['../embedding__optimizer__split__template_8cu.html#afab484072b9b8381500b14e31ba49364',1,'_update_kernel(at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; dev_weights, at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; uvm_weights, at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_dev_indices, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const int32_t max_D, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, {{ args.split_kernel_args|join(&quot;, &quot;) }}):&#160;embedding_optimizer_split_kernel_template.cu']]],
+  ['_5fv2_5fkernel_66',['_v2_kernel',['../embedding__forward__split__kernel__v2__template_8cu.html#a20b736346ad19821ed9748c4dde5b058',1,'embedding_forward_split_kernel_v2_template.cu']]]
 ];
diff --git a/search/all_1.js b/search/all_1.js
index e01359b9b..8c39e37f0 100644
--- a/search/all_1.js
+++ b/search/all_1.js
@@ -1,11 +1,39 @@
 var searchData=
 [
-  ['combine_20input_20operators_0',['Combine Input Operators',['../group__input-combine.html',1,'']]],
-  ['comparator_1',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]],
-  ['cpu_20operators_2',['cpu operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
-  ['cpu_20permutation_20operators_3',['CPU Permutation Operators',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['cuda_4',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]],
-  ['cuda_20memorty_20operators_5',['CUDA Memorty Operators',['../group__cumem-utils.html',1,'']]],
-  ['cuda_20operators_6',['cuda operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
-  ['cuda_20permutation_20operators_7',['CUDA Permutation Operators',['../group__permute-pooled-embs-gpu.html',1,'']]]
+  ['a_0',['a',['../structfbgemm__gpu_1_1_half4.html#a27075551b75deec4b6f30d368075d852',1,'fbgemm_gpu::Half4::a'],['../structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html#a943da41846f7804fa8edd8b012551545',1,'fbgemm_gpu::StochasticRoundingRNGState::a']]],
+  ['acc_1',['acc',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; float &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#accb1990c79cc9a9c3ca84d635d589ca4',1,'fbgemm_gpu::Vec4T&lt; double &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ae7a59aea3ae02e7c3c40b93e77208b3a',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af835160660d81c33fb2f1f42017452fb',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a17543b514b8298a1e94b5671db506366',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f332e6824c0bf94b367c027c6c91595',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345',1,'fbgemm_gpu::Vec4AccT::acc']]],
+  ['acc_5fadd_5for_5ffma_2',['ACC_ADD_OR_FMA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['accumulate_5ffp16_3',['accumulate_fp16',['../namespacefbgemm__gpu.html#a3de0ed0985acc3edc0583b6cd56a43f2',1,'fbgemm_gpu']]],
+  ['accumulate_5ffp32_4',['accumulate_fp32',['../namespacefbgemm__gpu.html#aeb3ef6437b744f52b29910361f83336c',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fhfp8_5',['accumulate_packed_hfp8',['../namespacefbgemm__gpu.html#acc596fdaac7efc925d19d7374251e8cb',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint2_6',['accumulate_packed_int2',['../namespacefbgemm__gpu.html#a857c58d8bfc412a3901414ef0b0f73c5',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint4_7',['accumulate_packed_int4',['../namespacefbgemm__gpu.html#af3478ab6f636e80a75953ffc1d8caed9',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint8_8',['accumulate_packed_int8',['../namespacefbgemm__gpu.html#a24c22ef27a441cb888d3b32957588794',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5ffp16_9',['accumulate_weighted_fp16',['../namespacefbgemm__gpu.html#a2700bcf99c82f2491a174d51c462e4e8',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5ffp32_10',['accumulate_weighted_fp32',['../namespacefbgemm__gpu.html#a7225f36d3ef25f69273160500bd0b9a7',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fhfp8_11',['accumulate_weighted_packed_hfp8',['../namespacefbgemm__gpu.html#aa177a98d987438afcde04f7fc2cba71a',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint2_12',['accumulate_weighted_packed_int2',['../namespacefbgemm__gpu.html#aebe17b37f24d82ea8cfbd296e307d5ab',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint4_13',['accumulate_weighted_packed_int4',['../namespacefbgemm__gpu.html#ade03f1b4099c9ecaf38d7d6a0eb7d595',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint8_14',['accumulate_weighted_packed_int8',['../namespacefbgemm__gpu.html#a80d2d456b1c87f68c9098d5e5d1fd47d',1,'fbgemm_gpu']]],
+  ['add_15',['add',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a3421b900475f40701fb4c0c1c542744c',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a5686a6ec8884ddf2ad633d735d181011',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ac26f750f3fa72d8b137026cc8726972f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1',1,'fbgemm_gpu::Vec4AccT::add(const float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1',1,'fbgemm_gpu::Vec4AccT::add(const float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2',1,'fbgemm_gpu::Vec4AccT::add(const uint8_t *ptr)']]],
+  ['add_5f_16',['add_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; float &gt;::add_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::add_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a3f8a7e8e00c59205f3b32b345290922b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::add_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::add_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a3f8a7e8e00c59205f3b32b345290922b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::add_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae0cdda7691531bfb7975dad742ff3984',1,'fbgemm_gpu::Vec4T&lt; double &gt;::add_()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf',1,'fbgemm_gpu::Vec4AccT::add_(const float *vals)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549',1,'fbgemm_gpu::Vec4AccT::add_(const half2 *vals_h)']]],
+  ['adjacencymatrix_17',['AdjacencyMatrix',['../topology__utils_8h.html#ada7183ec06808ddb73d8f1a65cd8f7ae',1,'topology_utils.h']]],
+  ['adjust_5finfo_5fb_5fnum_5fbits_18',['adjust_info_B_num_bits',['../split__embeddings__utils_8cuh.html#aaaa05e63829893f17b951de7dc993747',1,'adjust_info_B_num_bits(int32_t B, int32_t T):&#160;get_infos_metadata.cu'],['../get__infos__metadata_8cu.html#a315ee6fa620a68c902298d741ac8989d',1,'adjust_info_B_num_bits(int32_t B, int32_t T):&#160;get_infos_metadata.cu']]],
+  ['adjust_5foffset_5fkernel_19',['adjust_offset_kernel',['../embedding__bounds__check_8cu.html#af9e26c2f2d6dfef45e1a12507d8c2b72',1,'embedding_bounds_check.cu']]],
+  ['all_5fto_5fone_5fdevice_20',['all_to_one_device',['../group__merge-pooled-emb.html#ga3933c7465129b58edd60ffcc1999c223',1,'fbgemm_gpu']]],
+  ['architecture_5fid_21',['ARCHITECTURE_ID',['../_c_make_c_compiler_id_8c.html#aba35d0d200deaeb06aee95ca297acb28',1,'ARCHITECTURE_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#aba35d0d200deaeb06aee95ca297acb28',1,'ARCHITECTURE_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['args_5fpos_22',['args_pos',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396',1,'fbgemm_gpu']]],
+  ['assign_23',['assign',['../namespacefbgemm__gpu.html#a6e69d027d43eb7e92ea620d43ae43cb1',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_24',['asynchronous_complete_cumsum',['../transpose__embedding__input_8cu.html#ae27e2b1fda2a338ce8f7f2207b580e7f',1,'transpose_embedding_input.cu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fcpu_25',['asynchronous_complete_cumsum_cpu',['../namespacefbgemm__gpu.html#a98effac974dc3fe5bbcc4ce8a75578f7',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fgpu_26',['asynchronous_complete_cumsum_gpu',['../namespacefbgemm__gpu.html#a1f31ee9922c98ad5d013361368f2f5ac',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fmeta_27',['asynchronous_complete_cumsum_meta',['../namespacefbgemm__gpu.html#a656bb5222f2a0bc92d5b895ba0fa846c',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fcpu_28',['asynchronous_exclusive_cumsum_cpu',['../namespacefbgemm__gpu.html#a69fe5be794026bdb73b0196be9b345a4',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fgpu_29',['asynchronous_exclusive_cumsum_gpu',['../namespacefbgemm__gpu.html#afd8b0919b5b3b021a8eb3727e304d5b4',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fmeta_30',['asynchronous_exclusive_cumsum_meta',['../namespacefbgemm__gpu.html#ae96f1ffdb8ed1efd58561364fbaf3c6a',1,'fbgemm_gpu']]],
+  ['asynchronous_5finclusive_5fcumsum_5fcpu_31',['asynchronous_inclusive_cumsum_cpu',['../namespacefbgemm__gpu.html#a8930419ab36c85750182c12db95baa29',1,'fbgemm_gpu']]],
+  ['asynchronous_5finclusive_5fcumsum_5fgpu_32',['asynchronous_inclusive_cumsum_gpu',['../namespacefbgemm__gpu.html#acc0c0e7f6e816900474b2e52756ac891',1,'fbgemm_gpu']]],
+  ['at_33',['at',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0',1,'fbgemm_gpu::TensorAccessorBase::at()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::at()']]],
+  ['at_5fx_34',['AT_X',['../fbgemm__tensor__accessor_8h.html#ac7d28de6473a715c6228c08b391476bb',1,'fbgemm_tensor_accessor.h']]],
+  ['auc_5fkernel_35',['auc_kernel',['../namespacefbgemm__gpu.html#a4bcadae3f465ece7979bf89f0c1cf22a',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_10.js b/search/all_10.js
index 7146073cb..201111c89 100644
--- a/search/all_10.js
+++ b/search/all_10.js
@@ -1,7 +1,120 @@
 var searchData=
 [
-  ['tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
-  ['tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
-  ['transformation_20cpu_20operators_2',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
-  ['transformation_20cuda_20operators_3',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
+  ['p_5findex_5fweights_0',['P_index_weights',['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18',1,'gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5findices_1',['P_indices',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5findices_5fis_5flong_2',['P_indices_is_long',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125',1,'fbgemm_gpu']]],
+  ['p_5findices_5foffsets_3',['P_indices_offsets',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de',1,'fbgemm_gpu']]],
+  ['p_5findices_5fprts_4',['P_indices_prts',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6',1,'fbgemm_gpu']]],
+  ['p_5flengths_5faddrs_5',['P_lengths_addrs',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0',1,'fbgemm_gpu']]],
+  ['p_5flengths_5fis_5flong_6',['P_lengths_is_long',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e',1,'fbgemm_gpu']]],
+  ['p_5flengths_5foffsets_7',['P_lengths_offsets',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97',1,'fbgemm_gpu']]],
+  ['p_5fload_5fd_8',['P_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5flxu_5fcache_5flocations_9',['P_lxu_cache_locations',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c',1,'P_lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c',1,'P_lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5flxu_5fcache_5fweights_10',['P_lxu_cache_weights',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0',1,'P_lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0',1,'P_lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5fnum_5foffsets_11',['P_num_offsets',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5foffsets_12',['P_offsets',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029',1,'P_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029',1,'P_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5foutputs_13',['P_outputs',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5fper_5fsample_5fweight_14',['P_per_sample_weight',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93',1,'fbgemm_gpu']]],
+  ['p_5ftotal_5fload_5fd_15',['P_total_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5fweights_16',['P_weights',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['pack_5fsegments_5fautograd_17',['pack_segments_autograd',['../namespacefbgemm__gpu.html#a24fd2f4efa543ea716010c3fc1832587',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fbackward_5fcpu_18',['pack_segments_backward_cpu',['../namespacefbgemm__gpu.html#a51f0921a8e934c6c4d0fca5ebb5d8338',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fbackward_5fcuda_19',['pack_segments_backward_cuda',['../namespacefbgemm__gpu.html#aaded8e25bef3a32580d71dc2ead25f0c',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcpu_20',['pack_segments_cpu',['../namespacefbgemm__gpu.html#a01151883c1840f280f4f9c083677c8b5',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcuda_21',['pack_segments_cuda',['../namespacefbgemm__gpu.html#a049c248a78797b27f5e053809c13b88e',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcuda_5fkernel_22',['pack_segments_cuda_kernel',['../namespacefbgemm__gpu.html#a3ff1eed5a38a10b4da916f9ec154f225',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fforward_5fcpu_23',['pack_segments_forward_cpu',['../namespacefbgemm__gpu.html#a49cb5dd543cc63e932f458e1c79c0d00',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fforward_5fcuda_24',['pack_segments_forward_cuda',['../namespacefbgemm__gpu.html#a4bec138cb5be2583288d026eb4185646',1,'fbgemm_gpu']]],
+  ['packedtensoraccessor32_25',['PackedTensorAccessor32',['../namespacefbgemm__gpu.html#a64ee5a7e6df3a95f1d4bdd9f38707c96',1,'fbgemm_gpu']]],
+  ['packedtensoraccessor64_26',['PackedTensorAccessor64',['../namespacefbgemm__gpu.html#a69b304f75455a9eb7144259c09770877',1,'fbgemm_gpu']]],
+  ['padded_5fd_27',['padded_D',['../namespacenbit.html#a45a36e2eb0376c3e37728ea312851cd7',1,'nbit']]],
+  ['padded_5frow_5fsize_5fin_5fbytes_28',['padded_row_size_in_bytes',['../namespacenbit.html#a3ac5bf25115544f9067032bef644a215',1,'nbit']]],
+  ['padding_5ffused_5ftbe_5finput_5fcombine_5fcpu_29',['padding_fused_tbe_input_combine_cpu',['../group__input-combine.html#ga9ab60fbe75053c2f31f7d3f16dfa476f',1,'fbgemm_gpu']]],
+  ['padding_5ffused_5ftbe_5finput_5fcombine_5fwith_5flength_5fcpu_30',['padding_fused_tbe_input_combine_with_length_cpu',['../namespacefbgemm__gpu.html#af01b4023830652f0cc3e99c87f7b4526',1,'fbgemm_gpu']]],
+  ['params_5foffset_31',['params_offset',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada',1,'params_offset:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada',1,'params_offset:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['per_5fsample_5fweights_5faddrs_32',['per_sample_weights_addrs',['../namespacefbgemm__gpu.html#a34e6956031d1fc5c0f8df5fb432bcfbd',1,'fbgemm_gpu']]],
+  ['permute_33',['permute',['../namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394',1,'fbgemm_gpu']]],
+  ['permute_20pooled_20embeddings_20operators_20cpu_34',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['permute_20pooled_20embeddings_20operators_20cuda_35',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['permute102_5fbaddbmm_5fpermute102_5fcpu_36',['permute102_baddbmm_permute102_cpu',['../namespacefbgemm__gpu.html#ab8d862f0ffee51a4d276f3989f0ab24b',1,'fbgemm_gpu']]],
+  ['permute102_5fbaddbmm_5fpermute102_5fcuda_37',['permute102_baddbmm_permute102_cuda',['../namespacefbgemm__gpu.html#a0c3f53164eb98c0b45b5aaef3e99a172',1,'fbgemm_gpu']]],
+  ['permute_5f1d_5fsparse_5fdata_5fcpu_38',['permute_1D_sparse_data_cpu',['../namespacefbgemm__gpu.html#a22758d46158e49801e876ab269855736',1,'fbgemm_gpu']]],
+  ['permute_5f2d_5fsparse_5fdata_5fcpu_39',['permute_2D_sparse_data_cpu',['../namespacefbgemm__gpu.html#a83da584464d49a223941e4b926b9676a',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fcpu_40',['permute_duplicate_pooled_embs_auto_grad_cpu',['../namespacefbgemm__gpu.html#aeabdb24bef8b30a2b80b94a676b2b5fb',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fgpu_41',['permute_duplicate_pooled_embs_auto_grad_gpu',['../namespacefbgemm__gpu.html#a242a088c94da1f0b016087bef8460622',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fcpu_42',['permute_duplicate_pooled_embs_auto_grad_split_cpu',['../namespacefbgemm__gpu.html#af0cdb20f76a1c62644ad644e4c7210ad',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fgpu_43',['permute_duplicate_pooled_embs_auto_grad_split_gpu',['../namespacefbgemm__gpu.html#a276c76fa5487668edb8477a844ca1704',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fcpu_44',['permute_duplicate_pooled_embs_cpu',['../namespacefbgemm__gpu.html#acc5af8d2639bda183a7758a7fb4d4e9a',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fgpu_45',['permute_duplicate_pooled_embs_gpu',['../namespacefbgemm__gpu.html#aecf7e9c2b36bb349c98294b9abfcf7c1',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fsplit_5fcpu_46',['permute_duplicate_pooled_embs_split_cpu',['../namespacefbgemm__gpu.html#a286571e933b530189672faaa53ee20e6',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fsplit_5fgpu_47',['permute_duplicate_pooled_embs_split_gpu',['../namespacefbgemm__gpu.html#a34e792da7d58bd96fc1c9d4c0b1b3a2a',1,'fbgemm_gpu']]],
+  ['permute_5fembeddings_5fkernel_48',['permute_embeddings_kernel',['../namespacefbgemm__gpu.html#a2b00efff9050b6bec363081afc5c3c2f',1,'fbgemm_gpu']]],
+  ['permute_5foutput_5fdim_5f0_5f1_49',['permute_output_dim_0_1',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a5bd1879ce15d52289f55eb10253c8e8e',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['permute_5fpooled_5fembedding_5ffunction_2ecpp_50',['permute_pooled_embedding_function.cpp',['../permute__pooled__embedding__function_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_2ecu_51',['permute_pooled_embedding_ops.cu',['../permute__pooled__embedding__ops_8cu.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_2eh_52',['permute_pooled_embedding_ops.h',['../permute__pooled__embedding__ops_8h.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fcpu_2ecpp_53',['permute_pooled_embedding_ops_cpu.cpp',['../permute__pooled__embedding__ops__cpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fgpu_2ecpp_54',['permute_pooled_embedding_ops_gpu.cpp',['../permute__pooled__embedding__ops__gpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_2ecu_55',['permute_pooled_embedding_ops_split.cu',['../permute__pooled__embedding__ops__split_8cu.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_2eh_56',['permute_pooled_embedding_ops_split.h',['../permute__pooled__embedding__ops__split_8h.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_5fcpu_2ecpp_57',['permute_pooled_embedding_ops_split_cpu.cpp',['../permute__pooled__embedding__ops__split__cpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_5fgpu_2ecpp_58',['permute_pooled_embedding_ops_split_gpu.cpp',['../permute__pooled__embedding__ops__split__gpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_59',['permute_pooled_embs_auto_grad',['../group__permute-pooled-embs-cpu.html#ga3fd0766d863a18ea5cce4bfdef6a0349',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fcpu_60',['permute_pooled_embs_auto_grad_cpu',['../group__permute-pooled-embs-cpu.html#gac050c22198470709b89b4d5b160006b0',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fgpu_61',['permute_pooled_embs_auto_grad_gpu',['../group__permute-pooled-embs-gpu.html#gad0d8a6f85fc81bc54e4c20e60fe6eb11',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fmeta_62',['permute_pooled_embs_auto_grad_meta',['../namespacefbgemm__gpu.html#a4381e6e500aad1cf049aa509fc17b16b',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fcpu_63',['permute_pooled_embs_auto_grad_split_cpu',['../group__permute-pooled-embs-cpu.html#ga62bb71eb3e7a980ce5efded317717189',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fgpu_64',['permute_pooled_embs_auto_grad_split_gpu',['../group__permute-pooled-embs-gpu.html#gab5673b48b58896e4954cc8fc7c90c4d8',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fcpu_65',['permute_pooled_embs_cpu',['../namespacefbgemm__gpu.html#aa321302401045119810e93f42a361f1f',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fcpu_5fimpl_66',['permute_pooled_embs_cpu_impl',['../group__permute-pooled-embs-cpu.html#ga39797562608b1226fc1632f815f7d8a2',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5ffunction_2eh_67',['permute_pooled_embs_function.h',['../permute__pooled__embs__function_8h.html',1,'']]],
+  ['permute_5fpooled_5fembs_5ffunction_5fsplit_2eh_68',['permute_pooled_embs_function_split.h',['../permute__pooled__embs__function__split_8h.html',1,'']]],
+  ['permute_5fpooled_5fembs_5fgpu_69',['permute_pooled_embs_gpu',['../namespacefbgemm__gpu.html#a9b4a18abd526ab3e9c95f782d87afbbb',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fgpu_5fimpl_70',['permute_pooled_embs_gpu_impl',['../namespacefbgemm__gpu.html#aca0e73083114d9eea99129e54b89fa23',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fkernel_71',['permute_pooled_embs_kernel',['../layout__transform__ops_8cuh.html#acf1671783450ed8e673d22cbc1d917b5',1,'layout_transform_ops.cuh']]],
+  ['permute_5fpooled_5fembs_5fmeta_72',['permute_pooled_embs_meta',['../namespacefbgemm__gpu.html#a1183d2ce4456d290df04c32b215fc22e',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fcpu_73',['permute_pooled_embs_split_cpu',['../group__permute-pooled-embs-cpu.html#ga21fd23f8f0de62159529356ebf7eb1f1',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fcpu_5fimpl_74',['permute_pooled_embs_split_cpu_impl',['../namespacefbgemm__gpu.html#a9ce974f08ff3cb46289f39af5ea7fcec',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fgpu_75',['permute_pooled_embs_split_gpu',['../group__permute-pooled-embs-gpu.html#ga342967f8cc4e25c7655d1987536cdc6b',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fgpu_5fimpl_76',['permute_pooled_embs_split_gpu_impl',['../namespacefbgemm__gpu.html#a0d587655a374b11bb6b7febcabe0f403',1,'fbgemm_gpu']]],
+  ['permute_5fsequence_5fembeddings_5fcpu_77',['permute_sequence_embeddings_cpu',['../namespacefbgemm__gpu.html#a6c601604b9a15b45176ad42d4ca04d7d',1,'fbgemm_gpu']]],
+  ['permute_5fsequence_5fembeddings_5fcuda_78',['permute_sequence_embeddings_cuda',['../namespacefbgemm__gpu.html#a713a7245a4295a57007802212dca05ee',1,'fbgemm_gpu']]],
+  ['permute_5fsparse_5ffeatures_5fcpu_79',['permute_sparse_features_cpu',['../namespacefbgemm__gpu.html#a7eec8c74f87d4204857061b761a17ede',1,'fbgemm_gpu']]],
+  ['permuted_5findices_80',['permuted_indices',['../namespacefbgemm__gpu.html#ab448dead4746a419f7d4a69a32c788ea',1,'fbgemm_gpu']]],
+  ['permuted_5flengths_5fsize_81',['permuted_lengths_size',['../namespacefbgemm__gpu.html#a77fcd99017c7bb6155d154951f8f45bc',1,'fbgemm_gpu']]],
+  ['permuted_5fweights_82',['permuted_weights',['../namespacefbgemm__gpu.html#a3035a61c641ca380da28b01558f5fdaa',1,'fbgemm_gpu']]],
+  ['permutepooledembsfunction_83',['PermutePooledEmbsFunction',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html',1,'fbgemm_gpu']]],
+  ['permutepooledembsfunctionsplit_84',['PermutePooledEmbsFunctionSplit',['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html',1,'fbgemm_gpu']]],
+  ['placementtype_85',['PlacementType',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194',1,'fbgemm_gpu']]],
+  ['platform_5fid_86',['PLATFORM_ID',['../_c_make_c_compiler_id_8c.html#adbc5372f40838899018fadbc89bd588b',1,'PLATFORM_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#adbc5372f40838899018fadbc89bd588b',1,'PLATFORM_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['pooled_20embeddings_20operators_20cpu_87',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['pooled_20embeddings_20operators_20cuda_88',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['poolingmode_89',['PoolingMode',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5d',1,'fbgemm_gpu']]],
+  ['pre_5fsigmoid_90',['pre_sigmoid',['../namespacefbgemm__gpu.html#a63c15a2ca68e0a1638710ac9d5335e6a',1,'fbgemm_gpu']]],
+  ['prefix_5fsum_91',['prefix_sum',['../namespacefbgemm__gpu.html#a82c664395e6340a5878c867fcf278bfc',1,'fbgemm_gpu']]],
+  ['primitivetype_92',['PrimitiveType',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60',1,'fbgemm_gpu']]],
+  ['private_5fcase_5ftype_5fcache_93',['PRIVATE_CASE_TYPE_CACHE',['../dispatch__macros_8h.html#ab66dce26ee489c79f3a0441be14902fa',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5fcache_5femb_94',['PRIVATE_CASE_TYPE_CACHE_EMB',['../dispatch__macros_8h.html#a98d43954b688bc60b943227d761487b3',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5femb_95',['PRIVATE_CASE_TYPE_EMB',['../dispatch__macros_8h.html#af2c9e16b5345c0cdb6611357e0ec15db',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5foutput_96',['PRIVATE_CASE_TYPE_OUTPUT',['../dispatch__macros_8h.html#a3905d2ceab136e10c35a2ff4fe29a7d0',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5foutput2_97',['PRIVATE_CASE_TYPE_OUTPUT2',['../dispatch__macros_8h.html#a17577aa7f884011133210418a790641a',1,'dispatch_macros.h']]],
+  ['process_5fall_5findices_5flarge_5fls_98',['process_all_indices_large_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['process_5fall_5findices_5fno_5fpooling_99',['process_all_indices_no_pooling',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['process_5fall_5findices_5fsmall_5fls_100',['process_all_indices_small_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['producer_5f_101',['producer_',['../classssd_1_1_initializer.html#a94a9376947a96732a7b6de4ca94e7fdd',1,'ssd::Initializer']]],
+  ['producer_5fqueue_5f_102',['producer_queue_',['../classssd_1_1_initializer.html#a04da45f241a7f5da5ebb52930ed756bc',1,'ssd::Initializer']]],
+  ['pruned_5farray_5flookup_5fcpu_103',['pruned_array_lookup_cpu',['../group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5',1,'pruned_array_lookup_cpu(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5',1,'pruned_array_lookup_cpu(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5farray_5flookup_5fcuda_104',['pruned_array_lookup_cuda',['../group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff',1,'pruned_array_lookup_cuda(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;embedding_forward_quantized_split_lookup.cu'],['../group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff',1,'pruned_array_lookup_cuda(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;embedding_forward_quantized_split_lookup.cu']]],
+  ['pruned_5farray_5flookup_5ffrom_5frow_5fidx_5fcpu_105',['pruned_array_lookup_from_row_idx_cpu',['../namespacefbgemm__gpu.html#ab57019812325465b62248776bb200885',1,'fbgemm_gpu']]],
+  ['pruned_5farray_5flookup_5ffrom_5frow_5fidx_5fcuda_106',['pruned_array_lookup_from_row_idx_cuda',['../namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9',1,'fbgemm_gpu']]],
+  ['pruned_5fhash_5ffunction_107',['pruned_hash_function',['../namespacenbit.html#adf6ceb44691d377239880812db632ef7',1,'nbit']]],
+  ['pruned_5fhashmap_5finsert_5funweighted_5fcpu_108',['pruned_hashmap_insert_unweighted_cpu',['../group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad',1,'pruned_hashmap_insert_unweighted_cpu(Tensor indices, Tensor dense_indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad',1,'pruned_hashmap_insert_unweighted_cpu(Tensor indices, Tensor dense_indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5finsert_5fweighted_5fcpu_109',['pruned_hashmap_insert_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a446403a1c26f7fecbc1c67fd9be87bf0',1,'gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5flookup_5fcuda_110',['pruned_hashmap_lookup_cuda',['../group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7',1,'pruned_hashmap_lookup_cuda(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;embedding_forward_quantized_split_lookup.cu'],['../group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7',1,'pruned_hashmap_lookup_cuda(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;embedding_forward_quantized_split_lookup.cu']]],
+  ['pruned_5fhashmap_5flookup_5funweighted_5fcpu_111',['pruned_hashmap_lookup_unweighted_cpu',['../group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211',1,'pruned_hashmap_lookup_unweighted_cpu(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211',1,'pruned_hashmap_lookup_unweighted_cpu(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5flookup_5fweighted_5fcpu_112',['pruned_hashmap_lookup_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#ae0d1d716d565d7e70bd253dcd89d7f47',1,'gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]],
+  ['pt2_5fcompliant_5ftag_113',['PT2_COMPLIANT_TAG',['../dispatch__macros_8h.html#a3b8ceecef1ba0067d90eea1764298cda',1,'dispatch_macros.h']]],
+  ['ptr_5f_114',['ptr_',['../memory__utils_8cu.html#afbe2be78a3ee81b2e3c6821cec74e116',1,'memory_utils.cu']]],
+  ['ptr_5fname_5f_115',['ptr_name_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16',1,'fbgemm_gpu::TensorAccessorBase::ptr_name_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::ptr_name_']]],
+  ['ptrtype_116',['PtrType',['../structfbgemm__gpu_1_1_default_ptr_traits.html#a931c4685c69254a5749f79cdb56ec814',1,'fbgemm_gpu::DefaultPtrTraits::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessorBase::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessor::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessor::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::PtrType']]]
 ];
diff --git a/search/all_11.js b/search/all_11.js
index d48573eb8..323386e5c 100644
--- a/search/all_11.js
+++ b/search/all_11.js
@@ -1,10 +1,20 @@
 var searchData=
 [
-  ['uvm_5fcuda_5fmem_5fadvise_0',['uvm_cuda_mem_advise',['../group__cumem-utils.html#ga8a7d93d58bcc9700c3054639973e25b6',1,'fbgemm_gpu']]],
-  ['uvm_5fcuda_5fmem_5fprefetch_5fasync_1',['uvm_cuda_mem_prefetch_async',['../group__cumem-utils.html#ga07e32d271464bafc50cc100cb52ddb85',1,'fbgemm_gpu']]],
-  ['uvm_5fmem_5fadvice_5fdont_5ffork_2',['uvm_mem_advice_dont_fork',['../group__cumem-utils.html#ga723bf5f1a0ca1c7a77e76054d3332a6e',1,'fbgemm_gpu']]],
-  ['uvm_5fstorage_3',['uvm_storage',['../group__cumem-utils.html#ga6e119375c731f9e33f4cd81a1f2205e2',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fcpu_4',['uvm_to_cpu',['../group__cumem-utils.html#ga6d4781dfa6a77b895140836f6e6d523b',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fcpu_5fclone_5',['uvm_to_cpu_clone',['../group__cumem-utils.html#ga98ea4dd0481cc3839cf21e55e003e7af',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fdevice_6',['uvm_to_device',['../group__cumem-utils.html#gaad51bd52cc92230c0e91c5d4f61511c2',1,'fbgemm_gpu']]]
+  ['quantization_20operators_20cuda_0',['Quantization Operators (CUDA)',['../group__quantize-ops-cuda.html',1,'']]],
+  ['quantize_20data_20cpu_20operators_1',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]],
+  ['quantize_5fbfloat16_2ecu_2',['quantize_bfloat16.cu',['../quantize__bfloat16_8cu.html',1,'']]],
+  ['quantize_5ffp8_5frowwise_2ecu_3',['quantize_fp8_rowwise.cu',['../quantize__fp8__rowwise_8cu.html',1,'']]],
+  ['quantize_5ffused_5f8bit_5frowwise_2ecu_4',['quantize_fused_8bit_rowwise.cu',['../quantize__fused__8bit__rowwise_8cu.html',1,'']]],
+  ['quantize_5ffused_5fnbit_5frowwise_2ecu_5',['quantize_fused_nbit_rowwise.cu',['../quantize__fused__nbit__rowwise_8cu.html',1,'']]],
+  ['quantize_5fhfp8_2ecu_6',['quantize_hfp8.cu',['../quantize__hfp8_8cu.html',1,'']]],
+  ['quantize_5fmsfp_2ecu_7',['quantize_msfp.cu',['../quantize__msfp_8cu.html',1,'']]],
+  ['quantize_5fops_2ecuh_8',['quantize_ops.cuh',['../quantize__ops_8cuh.html',1,'']]],
+  ['quantize_5fops_5fcpu_2ecpp_9',['quantize_ops_cpu.cpp',['../quantize__ops__cpu_8cpp.html',1,'']]],
+  ['quantize_5fops_5fgpu_2ecpp_10',['quantize_ops_gpu.cpp',['../quantize__ops__gpu_8cpp.html',1,'']]],
+  ['quantize_5fops_5fmax_11',['QUANTIZE_OPS_MAX',['../quantize__ops_2common_8cuh.html#ac84aa8e4e97b2a4675ec853e802ec4c6',1,'common.cuh']]],
+  ['quantize_5fops_5fmeta_2ecpp_12',['quantize_ops_meta.cpp',['../quantize__ops__meta_8cpp.html',1,'']]],
+  ['quantize_5fops_5fmin_13',['QUANTIZE_OPS_MIN',['../quantize__ops_2common_8cuh.html#a7c9f79708fed845d68b88205e5a1c70c',1,'common.cuh']]],
+  ['quantize_5fops_5futils_2eh_14',['quantize_ops_utils.h',['../quantize__ops__utils_8h.html',1,'']]],
+  ['quantize_5fpadded_5ffp8_5frowwise_2ecu_15',['quantize_padded_fp8_rowwise.cu',['../quantize__padded__fp8__rowwise_8cu.html',1,'']]],
+  ['quantize_5fstore_16',['quantize_store',['../namespacefbgemm__gpu.html#af5bbc85156e52ab097bb0f770a2f63e7',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_12.js b/search/all_12.js
new file mode 100644
index 000000000..f05f0f23f
--- /dev/null
+++ b/search/all_12.js
@@ -0,0 +1,36 @@
+var searchData=
+[
+  ['radix_5fsort_5fpairs_2ecu_0',['radix_sort_pairs.cu',['../radix__sort__pairs_8cu.html',1,'']]],
+  ['range_5fdata_1',['range_data',['../namespacefbgemm__gpu.html#aef9d86cd563a5416a6c556a5902c966d',1,'fbgemm_gpu']]],
+  ['range_5fsize_2',['range_size',['../namespacefbgemm__gpu.html#ad7972a8cfd2b4fbe5e0b5b29f12beaa7',1,'fbgemm_gpu']]],
+  ['recalibrate_5fvalue_3',['recalibrate_value',['../namespacefbgemm__gpu.html#a6b36a55458d7d4b9024fd515605c29ee',1,'fbgemm_gpu']]],
+  ['recat_5fcopy_5fasync_5fkernel_4',['recat_copy_async_kernel',['../layout__transform__ops_8cuh.html#a2f3c62685f843be282e18a9805d8ad5c',1,'layout_transform_ops.cuh']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fcuda_5',['recat_embedding_grad_output_cuda',['../group__layout-transform-cuda.html#ga09438223bb710af7f55fb6d25fc9d99f',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fbatch_5fcuda_6',['recat_embedding_grad_output_mixed_D_batch_cuda',['../group__layout-transform-cuda.html#gad5cabc0ba0ee6dfd8a8de4e5825c62e9',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fcpu_7',['recat_embedding_grad_output_mixed_D_cpu',['../group__layout-transform-cpu.html#ga8edc2bee42577b7eeb76613b52d62311',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fcuda_8',['recat_embedding_grad_output_mixed_D_cuda',['../group__layout-transform-cuda.html#gaf753887183c2603a01978463228a0343',1,'fbgemm_gpu']]],
+  ['registration_5flist_9',['registration_list',['../classfbgemm__gpu_1_1enum__registration.html#afbf71e4018b8f6bf7ff11e50f3aeed14',1,'fbgemm_gpu::enum_registration']]],
+  ['reorder_5fbatched_5fad_5findices_5fcpu_10',['reorder_batched_ad_indices_cpu',['../namespacefbgemm__gpu.html#a71657f0dff28b74e6cb71f2e70adba96',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5findices_5fcpu_5f_11',['reorder_batched_ad_indices_cpu_',['../namespacefbgemm__gpu.html#abe2eef805cfc20b2d3ba69e3db973688',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5findices_5fgpu_12',['reorder_batched_ad_indices_gpu',['../namespacefbgemm__gpu.html#a10ae2e750abd260fb3dc2deb5e6a10a6',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5f_13',['reorder_batched_ad_lengths_',['../namespacefbgemm__gpu.html#a87472f171b785c3735bc88d72c8ddd9e',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5fcpu_14',['reorder_batched_ad_lengths_cpu',['../namespacefbgemm__gpu.html#aee6a046b2315137787cced8d9942a248',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5fgpu_15',['reorder_batched_ad_lengths_gpu',['../namespacefbgemm__gpu.html#af398efd1fa34f78e6882f7691aa99fa9',1,'fbgemm_gpu']]],
+  ['report_5fembedding_5ferror_16',['report_embedding_error',['../namespacefbgemm__gpu.html#a17e57fc2dca2d6df09e26f3eec69464c',1,'fbgemm_gpu']]],
+  ['reset_17',['reset',['../structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e',1,'fbgemm_gpu::Vec4AccT']]],
+  ['reset_5fweight_5fmomentum_2ecu_18',['reset_weight_momentum.cu',['../reset__weight__momentum_8cu.html',1,'']]],
+  ['reset_5fweight_5fmomentum_5fcuda_19',['reset_weight_momentum_cuda',['../group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79',1,'reset_weight_momentum_cuda(at::Tensor dev_weights, at::Tensor uvm_weights, at::Tensor lxu_cache_weights, at::Tensor weights_placements, at::Tensor weights_offsets, at::Tensor momentum1_dev, at::Tensor momentum1_uvm, at::Tensor momentum1_placements, at::Tensor momentum1_offsets, at::Tensor D_offsets, at::Tensor pruned_indices, at::Tensor pruned_indices_offsets, at::Tensor logical_table_ids, at::Tensor buffer_ids, at::Tensor cache_hash_size_cumsum, at::Tensor lxu_cache_state, int64_t total_cache_hash_size):&#160;reset_weight_momentum.cu'],['../group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79',1,'reset_weight_momentum_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor lxu_cache_weights, Tensor weights_placements, Tensor weights_offsets, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor D_offsets, Tensor pruned_indices, Tensor pruned_indices_offsets, Tensor logical_table_ids, Tensor buffer_ids, Tensor cache_hash_size_cumsum, Tensor lxu_cache_state, int64_t total_cache_hash_size):&#160;reset_weight_momentum.cu']]],
+  ['right_20',['right',['../namespacefbgemm__gpu.html#a2f54f8b71f0d765e2b7dbd9a8b9774ff',1,'fbgemm_gpu']]],
+  ['rk_5fdouble_21',['rk_double',['../namespacefbgemm__gpu.html#af9dc4afe0a87b2326caf53649eee20eb',1,'fbgemm_gpu']]],
+  ['rk_5frandom_22',['rk_random',['../namespacefbgemm__gpu.html#a3914fbd6fed76ebe8d05a1967ec5ccb9',1,'fbgemm_gpu']]],
+  ['rk_5fseed_23',['rk_seed',['../namespacefbgemm__gpu.html#ad56b0e8dd76a57dcc1e268831fe58abb',1,'fbgemm_gpu']]],
+  ['rk_5fstate_24',['rk_state',['../structfbgemm__gpu_1_1rk__state.html',1,'fbgemm_gpu']]],
+  ['rk_5fzipf_25',['rk_zipf',['../namespacefbgemm__gpu.html#ac4468c32ea6dc23cc2d7bded57a53119',1,'fbgemm_gpu']]],
+  ['round_5fdown_26',['round_down',['../namespacefbgemm__gpu.html#afad69123afbd407f6cd94913da47680e',1,'fbgemm_gpu']]],
+  ['round_5fup_27',['round_up',['../namespacenbit.html#a3f668dd605c2700542424899b9df54c6',1,'nbit']]],
+  ['row_5f_28',['row_',['../structfbgemm__gpu_1_1_weight_row.html#aba84449b569f220a80ccbbcc1d4da57c',1,'fbgemm_gpu::WeightRow']]],
+  ['row_5findices_29',['row_indices',['../structinternal_1_1_hyper_compressed_sparse_column.html#a22af9d871fd3faef3d676cc6757debcc',1,'internal::HyperCompressedSparseColumn']]],
+  ['row_5fstart_30',['row_start',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e',1,'row_start:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e',1,'row_start:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['row_5fstorage_5f_31',['row_storage_',['../classssd_1_1_initializer.html#a3f2b57f32ee510408e83a7c26716d7a5',1,'ssd::Initializer']]],
+  ['run_5femulate_5fcache_5fmiss_32',['run_emulate_cache_miss',['../uvm__cache__miss__emulate__test_8cpp.html#ac9959da4e8495e9b74415473535a9c3e',1,'uvm_cache_miss_emulate_test.cpp']]]
+];
diff --git a/search/all_13.js b/search/all_13.js
new file mode 100644
index 000000000..235f9af1a
--- /dev/null
+++ b/search/all_13.js
@@ -0,0 +1,229 @@
+var searchData=
+[
+  ['saved_5fparams_0',['SAVED_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['saved_5fparams_5fcnt_1',['SAVED_PARAMS_CNT',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89',1,'SAVED_PARAMS_CNT:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89',1,'SAVED_PARAMS_CNT:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['seg_5fend_2',['seg_end',['../namespacefbgemm__gpu.html#a4311f4976e51399caed297d2cad3bfd3',1,'fbgemm_gpu']]],
+  ['seg_5fstart_3',['seg_start',['../namespacefbgemm__gpu.html#adc735e446799084e3d27da58cf5807c3',1,'fbgemm_gpu']]],
+  ['segment_5fend_4',['segment_end',['../namespacefbgemm__gpu.html#a00965ae9e18f8292077b81d9040515c0',1,'fbgemm_gpu']]],
+  ['segment_5foffsets_5fdata_5',['segment_offsets_data',['../namespacefbgemm__gpu.html#a091bd2259a1e959d0052ad2fa399065f',1,'fbgemm_gpu']]],
+  ['segment_5fstart_6',['segment_start',['../namespacefbgemm__gpu.html#aa58de74ea57ed45322b04e829cb75d9b',1,'fbgemm_gpu']]],
+  ['segment_5fsum_5fcsr_5fcpu_7',['segment_sum_csr_cpu',['../namespacefbgemm__gpu.html#a678327561759694192908f1f111424f7',1,'fbgemm_gpu']]],
+  ['segment_5fsum_5fcsr_5fcuda_8',['segment_sum_csr_cuda',['../namespacefbgemm__gpu.html#a8ae9711da44e5cd4a81f95a762b41180',1,'fbgemm_gpu']]],
+  ['segment_5fvalue_5fdata_9',['segment_value_data',['../namespacefbgemm__gpu.html#ac49066d09ce07fcb75c1f913da32b626',1,'fbgemm_gpu']]],
+  ['set_10',['set',['../classssd_1_1_embedding_rocks_d_b.html#a1951c5647b663fc955ee1076f68190ec',1,'ssd::EmbeddingRocksDB']]],
+  ['set_5fcuda_11',['set_cuda',['../classssd_1_1_embedding_rocks_d_b.html#a1b6c5343b7eafae73491f0749f1151a9',1,'ssd::EmbeddingRocksDB']]],
+  ['set_5fstochastic_5frounding_12',['set_stochastic_rounding',['../structfbgemm__gpu_1_1_weight_row.html#a4548dbb10be8705cf81e3e2362f1cea3',1,'fbgemm_gpu::WeightRow']]],
+  ['sharedmemory_13',['SharedMemory',['../structfbgemm__gpu_1_1_shared_memory.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20double_20_3e_14',['SharedMemory&lt; double &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20float_20_3e_15',['SharedMemory&lt; float &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20int32_5ft_20_3e_16',['SharedMemory&lt; int32_t &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20int64_5ft_20_3e_17',['SharedMemory&lt; int64_t &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20vec4t_3c_20at_3a_3aacc_5ftype_3c_20double_2c_20true_20_3e_20_3e_20_3e_18',['SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20vec4t_3c_20at_3a_3aacc_5ftype_3c_20float_2c_20true_20_3e_20_3e_20_3e_19',['SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html',1,'fbgemm_gpu']]],
+  ['shfl_5fdown_5fsync_20',['shfl_down_sync',['../namespacefbgemm__gpu.html#a52eb62356a603284f18652bc195274ea',1,'fbgemm_gpu']]],
+  ['shfl_5fsync_21',['SHFL_SYNC',['../embedding__forward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495',1,'SHFL_SYNC:&#160;embedding_forward_template_helpers.cuh'],['../embedding__backward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495',1,'SHFL_SYNC:&#160;embedding_backward_template_helpers.cuh']]],
+  ['shfl_5fsync_22',['shfl_sync',['../namespacefbgemm__gpu.html#a9b3fcf49a28b6524c8db8c7c523e1798',1,'fbgemm_gpu']]],
+  ['shfl_5fxor_23',['shfl_xor',['../namespacefbgemm__gpu.html#a17b07e8668ed9b29a8b37d21a829723d',1,'fbgemm_gpu']]],
+  ['should_5fprune_24',['should_prune',['../namespacefbgemm__gpu.html#a4ae09e478c1e9d6a414935fb6cf60f99',1,'fbgemm_gpu']]],
+  ['size_25',['size',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d',1,'fbgemm_gpu::TensorAccessorBase::size()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::size()']]],
+  ['sizes_26',['sizes',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e',1,'fbgemm_gpu::TensorAccessorBase']]],
+  ['sizes_5f_27',['sizes_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848',1,'fbgemm_gpu::TensorAccessorBase::sizes_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::sizes_']]],
+  ['sl_28',['SL',['../namespacefbgemm__gpu.html#a4478543eef2b1a98a328e4c634b5f6ad',1,'fbgemm_gpu']]],
+  ['smem_29',['smem',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce',1,'smem:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce',1,'smem:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['smem_5fcache_5fweight_5fdata_30',['SMEM_CACHE_WEIGHT_DATA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fcache_5fweight_5fptr_31',['SMEM_CACHE_WEIGHT_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5femb_5fweight_5fdata_32',['SMEM_EMB_WEIGHT_DATA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5femb_5fweight_5fptr_33',['SMEM_EMB_WEIGHT_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fgeneric_5fptr_34',['SMEM_GENERIC_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5foffset_35',['SMEM_OFFSET',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fptr_5fbase_36',['SMEM_PTR_BASE',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['sort_37',['sort',['../structfbgemm__gpu_1_1_bitonic_sort.html#ae729c535b885ed8e2aca6d99ef51e4b0',1,'fbgemm_gpu::BitonicSort']]],
+  ['sorted_5finfos_38',['sorted_infos',['../namespacefbgemm__gpu.html#a89d9dff100cfa1f022fcfbf61e2500cc',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5fcumulative_5frun_5flengths_39',['sorted_linear_indices_cumulative_run_lengths',['../namespacefbgemm__gpu.html#ae6972dc3932ca715765452e39f97f21b',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5fnum_5fruns_40',['sorted_linear_indices_num_runs',['../namespacefbgemm__gpu.html#a9531de3506c1c1753051c949613ee1b5',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5frun_41',['sorted_linear_indices_run',['../namespacefbgemm__gpu.html#a30d761b81b0e05f95a7a118a17d6c4a2',1,'fbgemm_gpu']]],
+  ['sorted_5flxu_5fcache_5flocations_42',['sorted_lxu_cache_locations',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a219575ab5da90e4fa43bbb6df6e7831b',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['sparse_20data_20cpu_20operators_43',['Sparse Data CPU Operators',['../group__sparse-data-cpu.html',1,'']]],
+  ['sparse_20data_20cuda_20operators_44',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]],
+  ['sparse_5fasync_5fcumsum_2ecu_45',['sparse_async_cumsum.cu',['../sparse__async__cumsum_8cu.html',1,'']]],
+  ['sparse_5fbatched_5funary_5fembeddings_2ecu_46',['sparse_batched_unary_embeddings.cu',['../sparse__batched__unary__embeddings_8cu.html',1,'']]],
+  ['sparse_5fblock_5fbucketize_5ffeatures_2ecu_47',['sparse_block_bucketize_features.cu',['../sparse__block__bucketize__features_8cu.html',1,'']]],
+  ['sparse_5fbucketize_5ffeatures_2ecu_48',['sparse_bucketize_features.cu',['../sparse__bucketize__features_8cu.html',1,'']]],
+  ['sparse_5fcompute_5ffrequency_5fsequence_2ecu_49',['sparse_compute_frequency_sequence.cu',['../sparse__compute__frequency__sequence_8cu.html',1,'']]],
+  ['sparse_5fexpand_5finto_5fjagged_5fpermute_2ecu_50',['sparse_expand_into_jagged_permute.cu',['../sparse__expand__into__jagged__permute_8cu.html',1,'']]],
+  ['sparse_5fgroup_5findex_2ecu_51',['sparse_group_index.cu',['../sparse__group__index_8cu.html',1,'']]],
+  ['sparse_5findex_5fadd_2ecu_52',['sparse_index_add.cu',['../sparse__index__add_8cu.html',1,'']]],
+  ['sparse_5findex_5fselect_2ecu_53',['sparse_index_select.cu',['../sparse__index__select_8cu.html',1,'']]],
+  ['sparse_5finvert_5fpermute_2ecu_54',['sparse_invert_permute.cu',['../sparse__invert__permute_8cu.html',1,'']]],
+  ['sparse_5fops_2ecuh_55',['sparse_ops.cuh',['../sparse__ops_8cuh.html',1,'']]],
+  ['sparse_5fops_2eh_56',['sparse_ops.h',['../sparse__ops_8h.html',1,'']]],
+  ['sparse_5fops_5fcpu_2ecpp_57',['sparse_ops_cpu.cpp',['../sparse__ops__cpu_8cpp.html',1,'']]],
+  ['sparse_5fops_5fgpu_2ecpp_58',['sparse_ops_gpu.cpp',['../sparse__ops__gpu_8cpp.html',1,'']]],
+  ['sparse_5fops_5fmeta_2ecpp_59',['sparse_ops_meta.cpp',['../sparse__ops__meta_8cpp.html',1,'']]],
+  ['sparse_5fops_5futils_2eh_60',['sparse_ops_utils.h',['../sparse__ops__utils_8h.html',1,'']]],
+  ['sparse_5fops_5futils_5ftest_2ecpp_61',['sparse_ops_utils_test.cpp',['../sparse__ops__utils__test_8cpp.html',1,'']]],
+  ['sparse_5fpack_5fsegments_5fbackward_2ecu_62',['sparse_pack_segments_backward.cu',['../sparse__pack__segments__backward_8cu.html',1,'']]],
+  ['sparse_5fpack_5fsegments_5fforward_2ecu_63',['sparse_pack_segments_forward.cu',['../sparse__pack__segments__forward_8cu.html',1,'']]],
+  ['sparse_5fpermute102_2ecu_64',['sparse_permute102.cu',['../sparse__permute102_8cu.html',1,'']]],
+  ['sparse_5fpermute_5f1d_2ecu_65',['sparse_permute_1d.cu',['../sparse__permute__1d_8cu.html',1,'']]],
+  ['sparse_5fpermute_5f2d_2ecu_66',['sparse_permute_2d.cu',['../sparse__permute__2d_8cu.html',1,'']]],
+  ['sparse_5fpermute_5fembeddings_2ecu_67',['sparse_permute_embeddings.cu',['../sparse__permute__embeddings_8cu.html',1,'']]],
+  ['sparse_5frange_2ecu_68',['sparse_range.cu',['../sparse__range_8cu.html',1,'']]],
+  ['sparse_5freorder_5fbatched_5fad_2ecu_69',['sparse_reorder_batched_ad.cu',['../sparse__reorder__batched__ad_8cu.html',1,'']]],
+  ['sparse_5fsegment_5fsum_5fcsr_2ecu_70',['sparse_segment_sum_csr.cu',['../sparse__segment__sum__csr_8cu.html',1,'']]],
+  ['sparse_5fzipf_2ecu_71',['sparse_zipf.cu',['../sparse__zipf_8cu.html',1,'']]],
+  ['sparsetype_72',['SparseType',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e',1,'fbgemm_gpu']]],
+  ['split_5fadagrad_5ftable_5fupdate_5fkernel_73',['split_adagrad_table_update_kernel',['../gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html#aae2b7a37c2c14a8e8575336d88932f5e',1,'gen_embedding_optimizer_adagrad_split_device_kernel.cuh']]],
+  ['split_5fadam_5ftable_5fupdate_5fkernel_74',['split_adam_table_update_kernel',['../gen__embedding__optimizer__adam__split__device__kernel_8cuh.html#a415ebd6751961f1e6826cfe2712cc85e',1,'gen_embedding_optimizer_adam_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5ftable_5fupdate_5fkernel_75',['split_approx_rowwise_adagrad_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html#a9263ef077d631b455021b5cfe68d9632',1,'gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5ftable_5fupdate_5fkernel_76',['split_approx_rowwise_adagrad_with_counter_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#a2f7931888711cbd1dff1f7fda564b3a5',1,'gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ftable_5fupdate_5fkernel_77',['split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#a30fdc78bf391825590b69585779a9baf',1,'gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh']]],
+  ['split_5fapprox_5fsgd_5ftable_5fupdate_5fkernel_78',['split_approx_sgd_table_update_kernel',['../gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html#abcf3f2a323ec4155270a5fcfffecd462',1,'gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh']]],
+  ['split_5fdense_5ftable_5fupdate_5fkernel_79',['split_dense_table_update_kernel',['../gen__embedding__optimizer__dense__split__device__kernel_8cuh.html#a9a55851e1eec2af9f174c94e138a4aa7',1,'gen_embedding_optimizer_dense_split_device_kernel.cuh']]],
+  ['split_5fembedding_80',['split_embedding',['../embedding__backward__split__host__template_8cpp.html#a099fcb1910d50cb2f7bcfd36966c67f3',1,'embedding_backward_split_host_template.cpp']]],
+  ['split_5fembedding_5f_81',['split_embedding_',['../embedding__optimizer__split__host__template_8cpp.html#a043dbacfe97bbbca3dfe0675f0073939',1,'embedding_optimizer_split_host_template.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5fcpu_82',['split_embedding_backward_codegen_adagrad_cpu',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca',1,'split_embedding_backward_codegen_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__adagrad__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca',1,'split_embedding_backward_codegen_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5funweighted_5fexact_5fcuda_83',['split_embedding_backward_codegen_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#a1207210a9545e9575750541d0b87d2ff',1,'split_embedding_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#a06b1cf5ad03a298c5257a31b33524398',1,'split_embedding_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5fweighted_5fexact_5fcuda_84',['split_embedding_backward_codegen_adagrad_weighted_exact_cuda',['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#a0e8cc9d4217b55864ac828677d7d546d',1,'split_embedding_backward_codegen_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#affb9be553e49e7bea6a6c3f60b63dc04',1,'split_embedding_backward_codegen_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadam_5funweighted_5fexact_5fcuda_85',['split_embedding_backward_codegen_adam_unweighted_exact_cuda',['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#a7c3fa518fa48a831ea3f8e691672808e',1,'split_embedding_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#ae27a3d26d13d596aaaa1e621990e0d71',1,'split_embedding_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadam_5fweighted_5fexact_5fcuda_86',['split_embedding_backward_codegen_adam_weighted_exact_cuda',['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#aea34407b88c9df5b3be55e8ea24a347d',1,'split_embedding_backward_codegen_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a8e4ae3bed221149c3b3ab6a5c0f38605',1,'split_embedding_backward_codegen_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_87',['split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#a346e3b137705a7c27ea4448090c853ca',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#afbce26182226d45104cf25fc6ebf90df',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fweighted_5fexact_5fcuda_88',['split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a1ff3b73be256bfc5b6a6a92c35f5c101',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ae5ec715aff7b59ae2cd64991053a8744',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5fcpu_89',['split_embedding_backward_codegen_dense_cpu',['../gen__embedding__backward__dense__split__cpu_8cpp.html#a9872de3651e55555a2bea1c407c45c5d',1,'split_embedding_backward_codegen_dense_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, double unused=0):&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../embedding__backward__dense__host__cpu_8cpp.html#a16114b295cd4bb55fd704d1cc575284f',1,'split_embedding_backward_codegen_dense_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, double unused):&#160;gen_embedding_backward_dense_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5funweighted_5fexact_5fcuda_90',['split_embedding_backward_codegen_dense_unweighted_exact_cuda',['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af39484621a2a43237ee275c7d9497e16',1,'split_embedding_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aebdb9ab2fd0166beebd42528ea223ac4',1,'split_embedding_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5fweighted_5fexact_5fcuda_91',['split_embedding_backward_codegen_dense_weighted_exact_cuda',['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#aeae20f9c1a93bb4297f2710fe00723a2',1,'split_embedding_backward_codegen_dense_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a4a920500b84d7febde7964cfa515c690',1,'split_embedding_backward_codegen_dense_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flamb_5funweighted_5fexact_5fcuda_92',['split_embedding_backward_codegen_lamb_unweighted_exact_cuda',['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#a45b16bde5dcd4ed361824c02fb19aa28',1,'split_embedding_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abafaac43ca0a5d04be6280c0db92ef81',1,'split_embedding_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flamb_5fweighted_5fexact_5fcuda_93',['split_embedding_backward_codegen_lamb_weighted_exact_cuda',['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#ac26e29ea75fba6b9f3922118cd293b96',1,'split_embedding_backward_codegen_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a2cb504a8487e7581fcf600c9dd9bb4da',1,'split_embedding_backward_codegen_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flars_5fsgd_5funweighted_5fexact_5fcuda_94',['split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#a68717d5b465de7efb3f58ca7f1c9c48e',1,'split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#ad6a69a83e0c09e08c8854f3a988349c2',1,'split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flars_5fsgd_5fweighted_5fexact_5fcuda_95',['split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#a3eff146e8f81f6d6dcc6e08f791b1c27',1,'split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a592a95a9e623ca87fb31c88bc11ef217',1,'split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fnone_5funweighted_5fexact_5fcuda_96',['split_embedding_backward_codegen_none_unweighted_exact_cuda',['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#ac780b945eb2c0cff713ff7280122da42',1,'split_embedding_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#ab8077c80baaf216fec8c7c0c81cd0c29',1,'split_embedding_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fnone_5fweighted_5fexact_5fcuda_97',['split_embedding_backward_codegen_none_weighted_exact_cuda',['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#a12b41a32a38b812420382dfb33a09e17',1,'split_embedding_backward_codegen_none_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a7808efa8b7d1caa4534528c97b55a26b',1,'split_embedding_backward_codegen_none_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5funweighted_5fexact_5fcuda_98',['split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#a4d39b6b803c05c33caf58b4a2fbf37ac',1,'split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a3d1da3b63c8a16884d3de8d52c0b99fd',1,'split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5fweighted_5fexact_5fcuda_99',['split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#ac295880f03c86cb263b324158e460e82',1,'split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aaa1e9d0adf68022fa575a63182a95745',1,'split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5funweighted_5fexact_5fcuda_100',['split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#a561ce0f1da43ca47001db85a395203e1',1,'split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ab047f1b46e810b2a48f66387d37cd588',1,'split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5fweighted_5fexact_5fcuda_101',['split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#a70ac0537228900edc94bbd437c550a15',1,'split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a6619694897abaeee44b975fa9614d7e3',1,'split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fcpu_102',['split_embedding_backward_codegen_rowwise_adagrad_cpu',['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360',1,'split_embedding_backward_codegen_rowwise_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360',1,'split_embedding_backward_codegen_rowwise_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fcuda_103',['split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#aca4e3268cb308c63a299f50cde66dec1',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad73707297535524e1eeff86f23adfdfa',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fvbe_5fcuda_104',['split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#a85ffab9880f2b1221f86a7f63c088096',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae52a1e89225c55716b2505ef0b14b32c',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fweighted_5fexact_5fcuda_105',['split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#a9e02b82c5db58357a98bc86454c2d7a5',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a394f3f0a5cbe256e703c0bb34bfe50b3',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fweighted_5fexact_5fvbe_5fcuda_106',['split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#a0266589d7dcf9f22a9398090ae16abac',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af257dbbdb6a2c64fdb2e038bb39190c1',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_107',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_host, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_host, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_host, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_host, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5funweighted_5fexact_5fcuda_108',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#afa64170f02313b2766c2cc3e25d2f5a9',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#aea7503341318b3b0142a83d310046516',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5fweighted_5fexact_5fcuda_109',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#aeed29f5cd2c5bacfd4ed37b2381c128b',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a07c978ecc3495651d0123d01876f68ca',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_110',['split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#acc9cd7c72b1624ec0df8d9f4edbde2cb',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a9f5e043a0a43d92b7a748c27e6ce8060',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fweighted_5fexact_5fcuda_111',['split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a969bc368ad46c57ab47feac737df5001',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a6cb23330ccfc55cc78d828d1fd8b59fb',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5fcpu_112',['split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5funweighted_5fexact_5fcuda_113',['split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#a10025996061290114d6060505057ce7b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a3a9f041d93d95908fbe76052c3d48a3e',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5fweighted_5fexact_5fcuda_114',['split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#a74ae14449034e73352a950be7faee8cd',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aad0ff2a4c042997b9969d779d3c91c59',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fcpu_115',['split_embedding_backward_codegen_sgd_cpu',['../gen__embedding__backward__sgd__split__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa',1,'split_embedding_backward_codegen_sgd_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__split__sgd__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa',1,'split_embedding_backward_codegen_sgd_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_sgd_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fcuda_116',['split_embedding_backward_codegen_sgd_unweighted_exact_cuda',['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#ad2d75e84d796d6d8fae77c19e7a8af3b',1,'split_embedding_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a8f7618b0f318fed552700a9303e0c500',1,'split_embedding_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fvbe_5fcuda_117',['split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda',['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#a216acb29a8d546146f5593b5abd7eaa1',1,'split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#aa75d2899ee39c0d5f71e426d1cc7d57c',1,'split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fweighted_5fexact_5fcuda_118',['split_embedding_backward_codegen_sgd_weighted_exact_cuda',['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#a16ec895b54d5b04f3fdfa67930c1c02a',1,'split_embedding_backward_codegen_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a2934aefc05b7ad4bc6e07074f0a2ee1e',1,'split_embedding_backward_codegen_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fweighted_5fexact_5fvbe_5fcuda_119',['split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda',['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#a9ee8617b61b6a4be1391fe53321bf927',1,'split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a67f194387a7e81de22d969964f1cc379',1,'split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fcpu_120',['split_embedding_codegen_forward_cpu',['../embedding__forward__split__cpu_8cpp.html#aaf201bc6f5c8deb12999a3eff03cf7bb',1,'split_embedding_codegen_forward_cpu(Tensor weights, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor hash_size_cumsum, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, int64_t output_dtype):&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__cpu_8h.html#a01e2ccf0c687aa129f511c048dd878a2',1,'split_embedding_codegen_forward_cpu(at::Tensor weights, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor hash_size_cumsum, at::Tensor indices, at::Tensor offsets, int64_t pooling_mode, at::Tensor indice_weights, int64_t output_dtype=0):&#160;embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fcpu_5fmeta_121',['split_embedding_codegen_forward_cpu_meta',['../embedding__forward__split__cpu_8cpp.html#a0641f4b915d503586cb2d251029169e4',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_122',['split_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fmeta_123',['split_embedding_codegen_forward_unweighted_meta',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a2b7fe88621ffc9b8dc0b55efafb6cb83',1,'gen_embedding_forward_split_unweighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fvbe_5fcuda_124',['split_embedding_codegen_forward_unweighted_vbe_cuda',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fvbe_5fmeta_125',['split_embedding_codegen_forward_unweighted_vbe_meta',['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#ac45ac774af2f2cdc3ef15fccacbc9866',1,'gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_126',['split_embedding_codegen_forward_weighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fmeta_127',['split_embedding_codegen_forward_weighted_meta',['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#a3f1b063bf337baa7c85cd891f50dcb17',1,'gen_embedding_forward_split_weighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fvbe_5fcuda_128',['split_embedding_codegen_forward_weighted_vbe_cuda',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fvbe_5fmeta_129',['split_embedding_codegen_forward_weighted_vbe_meta',['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#aafe550801c2d2c26cf43ccef3a6ac0e9',1,'gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcpu_130',['split_embedding_codegen_grad_indice_weights_cpu',['../embedding__forward__split__cpu_8cpp.html#a03b54fa4944d00f3984442a980742701',1,'split_embedding_codegen_grad_indice_weights_cpu(Tensor grad_output, Tensor weights, Tensor weights_offsets, Tensor D_offsets, Tensor indices, Tensor offsets, Tensor feature_requires_grad):&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__cpu_8h.html#a371a7887c9af52b22bdc10e84d5c2ba6',1,'split_embedding_codegen_grad_indice_weights_cpu(at::Tensor grad_output, at::Tensor weights, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor indices, at::Tensor offsets, at::Tensor feature_requires_grad):&#160;embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcuda_131',['split_embedding_codegen_grad_indice_weights_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fvbe_5fcuda_132',['split_embedding_codegen_grad_indice_weights_vbe_cuda',['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fadagrad_5ffunction_133',['split_embedding_codegen_lookup_adagrad_function',['../group__embedding-cuda.html#gaa0988eef90f8662e8886912ed3784c1d',1,'gen_embedding_backward_split_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fadam_5ffunction_134',['split_embedding_codegen_lookup_adam_function',['../group__embedding-cuda.html#ga639ddbb31e9d565bfcfa4766b14c9ef6',1,'gen_embedding_backward_split_adam.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5ffunction_135',['split_embedding_codegen_lookup_approx_rowwise_adagrad_function',['../group__embedding-cuda.html#gac847393d811e7b22ace39ff91eb91e27',1,'gen_embedding_backward_split_approx_rowwise_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5ffunction_136',['split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function',['../group__embedding-cuda.html#gabf7587752fb66934350cec59cd7adda9',1,'gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ffunction_137',['split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function',['../group__embedding-cuda.html#ga0a7191adb6807417bfaab85ccb6fac50',1,'gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5fsgd_5ffunction_138',['split_embedding_codegen_lookup_approx_sgd_function',['../group__embedding-cuda.html#gabcff81381942478b57805e5deb7725fb',1,'gen_embedding_backward_split_approx_sgd.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fdense_5ffunction_139',['split_embedding_codegen_lookup_dense_function',['../embedding__backward__dense__host_8cpp.html#a04b7d97e6fd0bbb6e9877db0c1b7e506',1,'embedding_backward_dense_host.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5flamb_5ffunction_140',['split_embedding_codegen_lookup_lamb_function',['../group__embedding-cuda.html#ga1c377dd2500d38974bbfe0e69243e084',1,'gen_embedding_backward_split_lamb.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5flars_5fsgd_5ffunction_141',['split_embedding_codegen_lookup_lars_sgd_function',['../group__embedding-cuda.html#ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3',1,'gen_embedding_backward_split_lars_sgd.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fnone_5ffunction_142',['split_embedding_codegen_lookup_none_function',['../group__embedding-cuda.html#ga855a30b389de5a61097f44cff795b6c3',1,'gen_embedding_backward_split_none.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fpartial_5frowwise_5fadam_5ffunction_143',['split_embedding_codegen_lookup_partial_rowwise_adam_function',['../group__embedding-cuda.html#ga06feb6c425fba7c460dc0da550d4e4e6',1,'gen_embedding_backward_split_partial_rowwise_adam.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fpartial_5frowwise_5flamb_5ffunction_144',['split_embedding_codegen_lookup_partial_rowwise_lamb_function',['../group__embedding-cuda.html#ga37b9129c928c9cb39459198f36f11c8d',1,'gen_embedding_backward_split_partial_rowwise_lamb.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5ffunction_145',['split_embedding_codegen_lookup_rowwise_adagrad_function',['../group__embedding-cuda.html#gacc3d997b675b747985dd37193cac4edd',1,'gen_embedding_backward_split_rowwise_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5fwith_5fcounter_5ffunction_146',['split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function',['../group__embedding-cuda.html#ga917cf0c2c4487425408808529ed05e68',1,'gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ffunction_147',['split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function',['../group__embedding-cuda.html#ga2e19021f546871ef6f1e57fca7cf5e13',1,'gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fweighted_5fadagrad_5ffunction_148',['split_embedding_codegen_lookup_rowwise_weighted_adagrad_function',['../group__embedding-cuda.html#ga54a40e0e64a528731d45bca998727a1c',1,'gen_embedding_backward_split_rowwise_weighted_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fsgd_5ffunction_149',['split_embedding_codegen_lookup_sgd_function',['../group__embedding-cuda.html#ga66c2eb0df8e5dab40f0d862ebe43bd34',1,'gen_embedding_backward_split_sgd.cpp']]],
+  ['split_5fembedding_5fforward_5fcpu_5fkernel_150',['split_embedding_forward_cpu_kernel',['../embedding__forward__split__cpu_8cpp.html#af360a949beb9bba72466614e220da13d',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fgrad_5findice_5fweights_5fcpu_5fkernel_151',['split_embedding_grad_indice_weights_cpu_kernel',['../embedding__forward__split__cpu_8cpp.html#a1156d3aee8ccb8a6676b22f78fe0829c',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fadagrad_5funweighted_5fexact_5fcuda_152',['split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#a635c3123249dcf767e8d80923e11a7b1',1,'split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#ad491e078738cfd46a4d2377948b977fc',1,'split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fadam_5funweighted_5fexact_5fcuda_153',['split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda',['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#a6392bb8bf8131572a96cb5bf5a363152',1,'split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a6a9de0e9036f30dbd7d7e4442ae7e5fe',1,'split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_154',['split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#a8d755844b3dc430390b0db02833650a7',1,'split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a701f363d76409a2aa4df028f12ba0300',1,'split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fdense_5funweighted_5fexact_5fcuda_155',['split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda',['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#a11ce1782edb9d58fffb5fe2581172d70',1,'split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a7911ad2a461036b977d8d9f9fafb391a',1,'split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5flamb_5funweighted_5fexact_5fcuda_156',['split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda',['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#ad6463435db98705077041803b394dcc3',1,'split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a557b019964c8d292ca9923927e0d974a',1,'split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5flars_5fsgd_5funweighted_5fexact_5fcuda_157',['split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#a0e0807f32e264e5a83586907ea3f6749',1,'split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a80df1bf7d746582f689d6bc4652f7266',1,'split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fnone_5funweighted_5fexact_5fcuda_158',['split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda',['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af181f8da92e59fb5da465d0931859e77',1,'split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a1540203f5279dd87016b397fe33fb041',1,'split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5funweighted_5fexact_5fcuda_159',['split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#a96e4c395674727814da03c2e1654487b',1,'split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aed21b16681b11ddd3303195bc4e278ec',1,'split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5funweighted_5fexact_5fcuda_160',['split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#a41c428effc52b315649ebd4bda728619',1,'split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad14c41705ba6da0dc89b8802945b9a3a',1,'split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fcuda_161',['split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#a05fd1c9f2aea152f9cbe2def957c66fb',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a4bdf992307f845985594c371275668a8',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5funweighted_5fexact_5fcuda_162',['split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#a0377d50ef90391567b4819a19bffb34c',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a7a94588a2cce7c8cad5f1654d5724ea3',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_163',['split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af25017968213662e5c8c0ab9f5fa7e9a',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a31dd9b41f6ea038416e54092a7fcb594',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5funweighted_5fexact_5fcuda_164',['split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#a42435ea3b63f42213a2c24d4aadc84f6',1,'split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aaf57ee3cb4514d7ccec1c0f5bd653ed3',1,'split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fcuda_165',['split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda',['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#a2260d3e46945437faae7a44fe015bf7c',1,'split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#ad92e69305915e46befca51e7288b428b',1,'split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_166',['split_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fmeta_167',['split_embedding_nobag_codegen_forward_unweighted_meta',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a580b1b950402848a3c71d7092a69ceb7',1,'gen_embedding_forward_split_unweighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5frowwise_5fadagrad_5fupdate_168',['split_embedding_rowwise_adagrad_update',['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#a21a7b48ff9760f1aa13e260de4b7d2a9',1,'split_embedding_rowwise_adagrad_update(Tensor &amp;dev_weights, Tensor &amp;uvm_weights, Tensor &amp;lxu_cache_weights, const Tensor &amp;grad_dev_weights, const Tensor &amp;grad_dev_indices, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t max_D, const bool stochastic_rounding, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#ab369ffc9f9e69eca82b24131247ecfcf',1,'split_embedding_rowwise_adagrad_update(Tensor &amp;dev_weights, Tensor &amp;uvm_weights, Tensor &amp;lxu_cache_weights, const Tensor &amp;grad_dev_weights, const Tensor &amp;grad_dev_indices, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t max_D, const bool stochastic_rounding, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu']]],
+  ['split_5fembeddings_5fcache_5fcuda_2ecuh_169',['split_embeddings_cache_cuda.cuh',['../split__embeddings__cache__cuda_8cuh.html',1,'']]],
+  ['split_5fembeddings_5fcache_5fops_2ecpp_170',['split_embeddings_cache_ops.cpp',['../split__embeddings__cache__ops_8cpp.html',1,'']]],
+  ['split_5fembeddings_5fcache_5fops_2ecu_171',['split_embeddings_cache_ops.cu',['../split__embeddings__cache__ops_8cu.html',1,'']]],
+  ['split_5fembeddings_5futils_2ecpp_172',['split_embeddings_utils.cpp',['../split__embeddings__utils_8cpp.html',1,'']]],
+  ['split_5fembeddings_5futils_2ecuh_173',['split_embeddings_utils.cuh',['../split__embeddings__utils_8cuh.html',1,'']]],
+  ['split_5flamb_5ftable_5fupdate_5fkernel_174',['split_lamb_table_update_kernel',['../gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html#a2952f72a1e3f88f38246d2954dbee2b1',1,'gen_embedding_optimizer_lamb_split_device_kernel.cuh']]],
+  ['split_5flars_5fsgd_5ftable_5fupdate_5fkernel_175',['split_lars_sgd_table_update_kernel',['../gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html#af488b727a53946064f329ad042bbf73a',1,'gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh']]],
+  ['split_5fnone_5ftable_5fupdate_5fkernel_176',['split_none_table_update_kernel',['../gen__embedding__optimizer__none__split__device__kernel_8cuh.html#a2cb53295ff111df7a98fbc7573469c61',1,'gen_embedding_optimizer_none_split_device_kernel.cuh']]],
+  ['split_5fpartial_5frowwise_5fadam_5ftable_5fupdate_5fkernel_177',['split_partial_rowwise_adam_table_update_kernel',['../gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html#a278aedfb9f50b7f5486dbc97e87cab8e',1,'gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh']]],
+  ['split_5fpartial_5frowwise_5flamb_5ftable_5fupdate_5fkernel_178',['split_partial_rowwise_lamb_table_update_kernel',['../gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html#a950ea306504584d6cc2050caf007295c',1,'gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5ftable_5fupdate_5fkernel_179',['split_rowwise_adagrad_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html#aab5a925ed0316c38c00fcce3b1adc50a',1,'gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5fwith_5fcounter_5ftable_5fupdate_5fkernel_180',['split_rowwise_adagrad_with_counter_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#aa7708111891a0d2eeeda7881715427bb',1,'gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ftable_5fupdate_5fkernel_181',['split_rowwise_adagrad_with_weight_decay_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#ae265a93446a3c4665e857bc8b2f7d8d7',1,'gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fweighted_5fadagrad_5ftable_5fupdate_5fkernel_182',['split_rowwise_weighted_adagrad_table_update_kernel',['../gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html#a54b1af3a7b8db5fce48d934e47656c50',1,'gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh']]],
+  ['split_5fsgd_5ftable_5fupdate_5fkernel_183',['split_sgd_table_update_kernel',['../gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html#ab768e225fdd76b64ab5c9114ed3cc7cc',1,'gen_embedding_optimizer_sgd_split_device_kernel.cuh']]],
+  ['splitmix64_5fstateless_184',['splitmix64_stateless',['../namespacefbgemm__gpu.html#aa5ada0472a8306dea17df0d7d1d42abc',1,'fbgemm_gpu']]],
+  ['src_5fidx_185',['src_idx',['../namespacefbgemm__gpu.html#a119724f55ff744b85a20a870b5da4152',1,'fbgemm_gpu']]],
+  ['ssd_186',['ssd',['../namespacessd.html',1,'']]],
+  ['ssd_5fcache_5fpopulate_5factions_5fcuda_187',['ssd_cache_populate_actions_cuda',['../ssd__split__embeddings__cache__cuda_8cu.html#a872136033719ff00d6b05e94e4b1cbab',1,'ssd_cache_populate_actions_cuda(Tensor linear_indices, int64_t total_hash_size, Tensor lxu_cache_state, int64_t time_stamp, int64_t prefetch_dist, Tensor lru_state):&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__table__batched__embeddings_8cpp.html#a872136033719ff00d6b05e94e4b1cbab',1,'ssd_cache_populate_actions_cuda(Tensor linear_indices, int64_t total_hash_size, Tensor lxu_cache_state, int64_t time_stamp, int64_t prefetch_dist, Tensor lru_state):&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['ssd_5fsplit_5fembeddings_5fcache_5fcuda_2ecu_188',['ssd_split_embeddings_cache_cuda.cu',['../ssd__split__embeddings__cache__cuda_8cu.html',1,'']]],
+  ['ssd_5fsplit_5ftable_5fbatched_5fembeddings_2ecpp_189',['ssd_split_table_batched_embeddings.cpp',['../ssd__split__table__batched__embeddings_8cpp.html',1,'']]],
+  ['ssd_5ftable_5fbatched_5fembeddings_2eh_190',['ssd_table_batched_embeddings.h',['../ssd__table__batched__embeddings_8h.html',1,'']]],
+  ['stackarray_191',['StackArray',['../struct_stack_array.html',1,'']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_2ecu_192',['stacked_jagged_1d_to_dense.cu',['../stacked__jagged__1d__to__dense_8cu.html',1,'']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_5fcpu_193',['stacked_jagged_1d_to_dense_cpu',['../namespacefbgemm__gpu.html#a6ac9f6d81bff1b8572a380dbe1af00fb',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_5fgpu_194',['stacked_jagged_1d_to_dense_gpu',['../namespacefbgemm__gpu.html#adf7f39b1a3dd7c2797fd11e740d6269f',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_2ecu_195',['stacked_jagged_2d_to_dense.cu',['../stacked__jagged__2d__to__dense_8cu.html',1,'']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fbackward_5fcuda_196',['stacked_jagged_2d_to_dense_backward_cuda',['../namespacefbgemm__gpu.html#a442efbf57b46780a07ac4759ac1866ee',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fcpu_197',['stacked_jagged_2d_to_dense_cpu',['../namespacefbgemm__gpu.html#ab45e5e415a8929cbd0021eae37e1d881',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fforward_5fcuda_198',['stacked_jagged_2d_to_dense_forward_cuda',['../namespacefbgemm__gpu.html#a5de1d5c177df840f2fa7ab0cdda2aa02',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fgpu_199',['stacked_jagged_2d_to_dense_gpu',['../namespacefbgemm__gpu.html#aaac575e676d094aba1367e9eaf3489bc',1,'fbgemm_gpu']]],
+  ['start_5finput_200',['start_input',['../namespacefbgemm__gpu.html#abb9cbb13307ba09bfd2a13ca7abbb19b',1,'fbgemm_gpu']]],
+  ['step_201',['step',['../namespacefbgemm__gpu.html#a17e8d602b1d99905e55e6b875dc306b5',1,'fbgemm_gpu']]],
+  ['step_202',['STEP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5',1,'STEP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5',1,'STEP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['stoc_5frounding_5fstate_5f_203',['stoc_rounding_state_',['../structfbgemm__gpu_1_1_weight_row.html#a666e6a66f2ff524d7dd4339ee8efc9d2',1,'fbgemm_gpu::WeightRow']]],
+  ['stochastic_5frounding_204',['stochastic_rounding',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['stochastic_5frounding_5finit_205',['stochastic_rounding_init',['../namespacefbgemm__gpu.html#afe523b46c92c9009410f173e4ac434db',1,'fbgemm_gpu']]],
+  ['stochastic_5frounding_5fphilox_5fargs_206',['stochastic_rounding_philox_args',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afff795d859ebc4c98b059d7e04dd8ebd',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['stochastic_5frounding_5frand4_207',['stochastic_rounding_rand4',['../namespacefbgemm__gpu.html#af0b19e6751891f43372768335cc3c468',1,'fbgemm_gpu']]],
+  ['stochastic_5frounding_5fvector_208',['stochastic_rounding_vector',['../namespacefbgemm__gpu.html#aec7be9515265c4db67d205f8a3a39822',1,'fbgemm_gpu::stochastic_rounding_vector(dst_t *output, const Vec4T&lt; src_t &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a06c37bb32cb18b8846cf689db8ed94fb',1,'fbgemm_gpu::stochastic_rounding_vector(at::Half *output, const Vec4T&lt; at::Half &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a7d41dbbfc3106c8fd5ff37cefbffbc38',1,'fbgemm_gpu::stochastic_rounding_vector(at::Half *output, const Vec4T&lt; float &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a3313b5c0af7bd07d6e47253a24a27ce7',1,'fbgemm_gpu::stochastic_rounding_vector(uint8_t *output, const Vec4T&lt; float &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2 qparams)'],['../namespacefbgemm__gpu.html#a44ed26caaddd852d96ee453ea6cc2e07',1,'fbgemm_gpu::stochastic_rounding_vector(uint8_t *output, const Vec4T&lt; at::Half &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2 qparams)']]],
+  ['stochasticroundingrngstate_209',['StochasticRoundingRNGState',['../structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html',1,'fbgemm_gpu']]],
+  ['stop_5f_210',['stop_',['../classssd_1_1_initializer.html#ae1a1eeaa4661c67f8e75985160abf62a',1,'ssd::Initializer']]],
+  ['storage_5f_211',['storage_',['../memory__utils_8cu.html#a1aaf192027acf281933c714c085e6849',1,'memory_utils.cu']]],
+  ['store_212',['store',['../structfbgemm__gpu_1_1_half4.html#a89967f417dba84846fa95a0f010d8922',1,'fbgemm_gpu::Half4::store()'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ab31e8852ca6760cf83d6356c8c448596',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(float4 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_weight_row.html#a2118cba7a45acc1a3d8ea5781badbbe9',1,'fbgemm_gpu::WeightRow::store()'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a8191536a88223b7249cae8a8cfa97979',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab9651b6b0e85a41131aa086c367d68bd',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a0624585ab8592b64edef7a6730938cb9',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a5ba7b1dad5adec8ae5dc9e4adfe58c38',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab208ce429674113143ee02d6b9e8a9be',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac87524a86f8aa165742c6b793f8fe6aa',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a26ce31b610926ff405b67dc540ff3d95',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a392a5b352be9af9ba86e0cd396e6316a',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a4699624d6b086fa52d88ce1960dc7297',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a1f0743afcc39c1afeeee6cd9bcdddc35',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a2c56bff3020a6b803a8310a13b61cfbe',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#ac4e67ed3ba860166333a7805b101490d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a0c562343c84b60da0e5f11ee16e593f2',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a68c214376e86167cbe59755a1caf99a5',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a9e2e827bb7e7c608f3acd3953a39e720',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a32f2acc26afe1a9cf7d5152567bbd15d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a75cd31fa56a77c83611b64ddd370a562',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a81504bf4294b938a3efc8d00acda3b5f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad15c2605b8d982986100c89caa7c0401',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a786f9130a8df81af5fc3b0706a1a6545',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#afbc2050eefc2350fd0f84db8dd568d14',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a6740fe48ec591c6058b8c5019ca0b599',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a75cd31fa56a77c83611b64ddd370a562',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a81504bf4294b938a3efc8d00acda3b5f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#ad15c2605b8d982986100c89caa7c0401',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a786f9130a8df81af5fc3b0706a1a6545',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#afbc2050eefc2350fd0f84db8dd568d14',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a6740fe48ec591c6058b8c5019ca0b599',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#acf9a6b5f9ac186a75bd50800993e7241',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa231a6e5c1ad91305125e2ba8c6cf773',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa2d60424caff50f6d80adfcd1ab5ba3f',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a5881b8e1b9ca2c81640bad8e6d0a455a',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa7c2038d0448a12c5edd87eb31f8b828',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#abfaf6f8618474ccb25d58d723792421d',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aad5d604b72b0f656dbeb5e313ebf63af',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a6dfa84a3eb11e20e68d8d3b401c7d2cf',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a82b07f279fccc086af2208ca7d6d1a3a',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f25b384b68cdb93ddd010a86f661460',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aa9b6e7a0e81a3a3d049e7c632fec2ad7',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a0d5c2181816bdbb6e5e4998b3fbba721',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a23eb49aef842e89c0f4403d45df27af9',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a483f290add1c81ba850fda8c574f68bb',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a9b3adeaa52d595467e06b90520c9708a',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aba368627faa071e57a548a336c7bee6b',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d',1,'fbgemm_gpu::Vec4AccT::store(float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6',1,'fbgemm_gpu::Vec4AccT::store(float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206',1,'fbgemm_gpu::Vec4AccT::store(uint8_t *ptr)']]],
+  ['store_5f_213',['store_',['../structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196',1,'fbgemm_gpu::Vec4AccT::store_(const float4 *src, float4 *dst)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6',1,'fbgemm_gpu::Vec4AccT::store_(const float4 *src, float2 *dst)']]],
+  ['store_5fqparams_214',['store_qparams',['../structfbgemm__gpu_1_1_weight_row.html#a7e20dc1480b5220df335895b7ac6bdd0',1,'fbgemm_gpu::WeightRow']]],
+  ['store_5fqparams_5fto_5frow_215',['store_qparams_to_row',['../namespacefbgemm__gpu.html#a8afc4c2510a6db3d420fc1025d3ac30b',1,'fbgemm_gpu::store_qparams_to_row(emb_t *ptr, float2 qparams)'],['../namespacefbgemm__gpu.html#af4ec15f5d6826c016c46b5d7cae62d72',1,'fbgemm_gpu::store_qparams_to_row(uint8_t *ptr, float2 qparams)']]],
+  ['stride_216',['stride',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694',1,'fbgemm_gpu::TensorAccessorBase::stride()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::stride()'],['../namespacefbgemm__gpu.html#a85f38ec0d4f8474b6d4ccad168974cf9',1,'fbgemm_gpu::stride']]],
+  ['strides_217',['strides',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1',1,'fbgemm_gpu::TensorAccessorBase']]],
+  ['strides_5f_218',['strides_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40',1,'fbgemm_gpu::TensorAccessorBase::strides_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::strides_']]],
+  ['stringify_219',['STRINGIFY',['../_c_make_c_compiler_id_8c.html#a43e1cad902b6477bec893cb6430bd6c8',1,'STRINGIFY:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a43e1cad902b6477bec893cb6430bd6c8',1,'STRINGIFY:&#160;CMakeCXXCompilerId.cpp']]],
+  ['stringify_5fhelper_220',['STRINGIFY_HELPER',['../_c_make_c_compiler_id_8c.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d',1,'STRINGIFY_HELPER:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d',1,'STRINGIFY_HELPER:&#160;CMakeCXXCompilerId.cpp']]],
+  ['sum_221',['sum',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::sum()'],['../namespacefbgemm__gpu.html#adb83758639b252f212d790847ca2f6b6',1,'fbgemm_gpu::sum']]],
+  ['sum_222',['SUM',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5da6970bdc2201030b9c03fbdcf3973858a',1,'fbgemm_gpu']]],
+  ['sum_5fe_223',['sum_E',['../namespacefbgemm__gpu.html#aba761028ac72c20c7defaef09de61d95',1,'fbgemm_gpu']]],
+  ['sum_5freduce_5fto_5fone_5fdevice_224',['sum_reduce_to_one_device',['../namespacefbgemm__gpu.html#aa7f73354e0c76fbc0584c3250dadc98e',1,'fbgemm_gpu']]],
+  ['syncwarp_225',['syncwarp',['../namespacefbgemm__gpu.html#ab776b7b9076d17238d502b2746135ace',1,'fbgemm_gpu']]]
+];
diff --git a/search/all_14.js b/search/all_14.js
new file mode 100644
index 000000000..4f4c8dffc
--- /dev/null
+++ b/search/all_14.js
@@ -0,0 +1,75 @@
+var searchData=
+[
+  ['t_0',['t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9',1,'t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9',1,'t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#aa80cbea4714c980d14626fd87c9287a4',1,'fbgemm_gpu::t']]],
+  ['t_1',['T',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64',1,'T:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64',1,'T:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15',1,'fbgemm_gpu::T']]],
+  ['table_5foffset_2',['table_offset',['../namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f',1,'fbgemm_gpu']]],
+  ['table_5foffsets_3',['table_offsets',['../namespacefbgemm__gpu.html#a114a2ddecfbdbb209bc791977fcb1c0e',1,'fbgemm_gpu']]],
+  ['table_5fwarp_5fid_4',['table_warp_id',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff',1,'table_warp_id:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff',1,'table_warp_id:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['tbe_5finput_5fcombine_5fcpu_5',['tbe_input_combine_cpu',['../group__input-combine.html#ga4f8f3f8b825c9d7639c1e45e8dc8b689',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fcpu_6',['tbe_input_combine_with_length_cpu',['../namespacefbgemm__gpu.html#a56da764643d07d366219d69333e6f9de',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fcuda_7',['tbe_input_combine_with_length_cuda',['../namespacefbgemm__gpu.html#ae818a54243bd2ea4c0841088f07ff327',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fgpu_8',['tbe_input_combine_with_length_gpu',['../namespacefbgemm__gpu.html#af7db32b23d955e760c7dfb4b29a13ca1',1,'fbgemm_gpu']]],
+  ['temp_5fstorage_9',['temp_storage',['../namespacefbgemm__gpu.html#ad0fce99009259dbc5e5c0527eb5b3f64',1,'fbgemm_gpu']]],
+  ['tensor_10',['Tensor',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adagrad_cpu.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adam_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__approx__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_sgd_cpu.cpp'],['../gen__embedding__backward__split__grad_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lamb_cpu.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__lars__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lars_sgd_cpu.cpp'],['../gen__embedding__backward__split__none_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__none__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_none_cpu.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__backward__split__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_sgd_cpu.cpp'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu'],['../batch__index__select__dim0__cpu__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batch_index_select_dim0_host.cpp'],['../embedding__backward__dense__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_dense_host.cpp'],['../embedding__backward__dense__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_dense_host_cpu.cpp'],['../embedding__backward__split__cpu__approx__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_cpu_approx_template.cpp'],['../embedding__backward__split__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_cpu_template.cpp'],['../embedding__backward__split__grad__template_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__host__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_host_cpu_template.cpp'],['../embedding__backward__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_host_template.cpp'],['../embedding__bounds__check_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check.cu'],['../embedding__bounds__check__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__forward__quantized__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_host.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_host_cpu.cpp'],['../embedding__forward__quantized__split__lookup_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_split_lookup.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f',1,'Tensor:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__kernel__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f',1,'Tensor:&#160;embedding_forward_quantized_split_nbit_kernel_template.cu'],['../embedding__forward__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__meta__template_8cpp.html#abd5e6ae11c42b2e53f1da6fa1f4646ed',1,'Tensor:&#160;embedding_forward_split_meta_template.cpp'],['../embedding__optimizer__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_optimizer_split_host_template.cpp'],['../embedding__optimizer__split__template_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_optimizer_split_template.cu'],['../namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f',1,'fbgemm_gpu::Tensor'],['../embedding__inplace__update_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update.h'],['../embedding__inplace__update_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update.cu'],['../embedding__inplace__update__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update_cpu.cpp'],['../histogram__binning__calibration__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;histogram_binning_calibration_ops.cu'],['../input__combine_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine.cu'],['../input__combine__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine_cpu.cpp'],['../input__combine__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine_gpu.cpp'],['../batched__dense__vec__jagged__2d__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batched_dense_vec_jagged_2d_mul_backward.cu'],['../batched__dense__vec__jagged__2d__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batched_dense_vec_jagged_2d_mul_forward.cu'],['../dense__to__jagged__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;dense_to_jagged_forward.cu'],['../jagged__dense__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_bmm_forward.cu'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__dense__elementwise__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_elementwise_mul_forward.cu'],['../jagged__index__add__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_index_add_2d_forward.cu'],['../jagged__index__select__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_index_select_2d_forward.cu'],['../jagged__jagged__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_jagged_bmm_forward.cu'],['../jagged__softmax__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_softmax_backward.cu'],['../jagged__softmax__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_softmax_forward.cu'],['../jagged__to__padded__dense__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_to_padded_dense_backward.cu'],['../jagged__to__padded__dense__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_to_padded_dense_forward.cu'],['../jagged__unique__indices_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_unique_indices.cu'],['../keyed__jagged__index__select__dim1_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;keyed_jagged_index_select_dim1.cu'],['../layout__transform__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;layout_transform_ops.cu'],['../layout__transform__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;layout_transform_ops_cpu.cpp'],['../memory__utils_2common_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.h'],['../memory__utils_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils.cpp'],['../memory__utils__ops_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils_ops.cpp'],['../memory__utils__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils_ops_cpu.cpp'],['../merge__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;merge_pooled_embedding_ops_cpu.cpp'],['../merge__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;merge_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__function_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_function.cpp'],['../permute__pooled__embedding__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops.cu'],['../permute__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__split_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split.cu'],['../permute__pooled__embedding__ops__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split_cpu.cpp'],['../permute__pooled__embedding__ops__split__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split_gpu.cpp'],['../quantize__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../quantize__bfloat16_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_bfloat16.cu'],['../quantize__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fp8_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__hfp8_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_hfp8.cu'],['../quantize__msfp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_msfp.cu'],['../quantize__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_ops_cpu.cpp'],['../quantize__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_ops_meta.cpp'],['../quantize__padded__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_padded_fp8_rowwise.cu'],['../sparse__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../sparse__async__cumsum_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_async_cumsum.cu'],['../sparse__batched__unary__embeddings_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_batched_unary_embeddings.cu'],['../sparse__block__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_block_bucketize_features.cu'],['../sparse__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_bucketize_features.cu'],['../sparse__compute__frequency__sequence_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_compute_frequency_sequence.cu'],['../sparse__expand__into__jagged__permute_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_expand_into_jagged_permute.cu'],['../sparse__group__index_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_group_index.cu'],['../sparse__index__add_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_index_add.cu'],['../sparse__index__select_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_index_select.cu'],['../sparse__invert__permute_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_invert_permute.cu'],['../sparse__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_gpu.cpp'],['../sparse__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_meta.cpp'],['../sparse__pack__segments__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_pack_segments_backward.cu'],['../sparse__pack__segments__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_pack_segments_forward.cu'],['../sparse__permute102_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute102.cu'],['../sparse__permute__1d_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_1d.cu'],['../sparse__permute__2d_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_2d.cu'],['../sparse__permute__embeddings_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_embeddings.cu'],['../sparse__range_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_range.cu'],['../sparse__reorder__batched__ad_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_reorder_batched_ad.cu'],['../sparse__segment__sum__csr_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_segment_sum_csr.cu'],['../sparse__zipf_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_zipf.cu'],['../split__embeddings__cache_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../split__embeddings__cache_2common_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.h'],['../lfu__cache__find_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_find.cu'],['../lfu__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate.cu'],['../lfu__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate_byte.cpp'],['../lfu__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate_byte.cu'],['../linearize__cache__indices_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;linearize_cache_indices.cpp'],['../linearize__cache__indices_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;linearize_cache_indices.cu'],['../lru__cache__find_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_find.cu'],['../lru__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate.cu'],['../lru__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate_byte.cpp'],['../lru__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate_byte.cu'],['../lxu__cache_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lxu_cache.cpp'],['../lxu__cache_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lxu_cache.cu'],['../reset__weight__momentum_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;reset_weight_momentum.cu'],['../generate__vbe__metadata_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;generate_vbe_metadata.cu'],['../get__infos__metadata_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;get_infos_metadata.cu'],['../radix__sort__pairs_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;radix_sort_pairs.cu'],['../split__embeddings__utils_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;split_embeddings_utils.cpp'],['../transpose__embedding__input_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;transpose_embedding_input.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['tensor_20cuda_20operators_11',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
+  ['tensor_20operators_12',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
+  ['tensor_5fassert_5ftest_2ecpp_13',['tensor_assert_test.cpp',['../tensor__assert__test_8cpp.html',1,'']]],
+  ['tensor_5fcontiguous_14',['TENSOR_CONTIGUOUS',['../sparse__ops__utils_8h.html#a333341c9590667c47753510e0da7b6e3',1,'sparse_ops_utils.h']]],
+  ['tensor_5fcontiguous_5fand_5fon_5fcpu_15',['TENSOR_CONTIGUOUS_AND_ON_CPU',['../sparse__ops__utils_8h.html#a0378cd5f9e716f13079b83a9b9805691',1,'sparse_ops_utils.h']]],
+  ['tensor_5fcontiguous_5fand_5fon_5fcuda_5fgpu_16',['TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#a350ade6aa989687c2ca8ced000e200ff',1,'sparse_ops_utils.h']]],
+  ['tensor_5fempty_5for_5fon_5fcpu_17',['TENSOR_EMPTY_OR_ON_CPU',['../sparse__ops__utils_8h.html#a73ab1987fec37ac982ae1ed77be0e3ea',1,'sparse_ops_utils.h']]],
+  ['tensor_5fempty_5for_5fon_5fcuda_5fgpu_18',['TENSOR_EMPTY_OR_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#aff83e4ada08cf70146ffc4ac2009aa9a',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fequals_19',['TENSOR_NDIM_EQUALS',['../sparse__ops__utils_8h.html#a485f848acf189619cb61a0ae7534eaa1',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fexceeds_20',['TENSOR_NDIM_EXCEEDS',['../sparse__ops__utils_8h.html#acfab048550cb0518bdb1ac267ef1e7ba',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fis_5fge_21',['TENSOR_NDIM_IS_GE',['../sparse__ops__utils_8h.html#abd9e69a82885e6e361275a0b08ebe565',1,'sparse_ops_utils.h']]],
+  ['tensor_5fon_5fcpu_22',['TENSOR_ON_CPU',['../sparse__ops__utils_8h.html#a5d19d4051835acd2c6d83eb637341010',1,'sparse_ops_utils.h']]],
+  ['tensor_5fon_5fcuda_5fgpu_23',['TENSOR_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#ac6089c2908cb1ae6367af5cf7bbea30d',1,'sparse_ops_utils.h']]],
+  ['tensor_5fon_5fsame_5fgpu_5fif_5fnot_5foptional_5fcheck_24',['tensor_on_same_gpu_if_not_optional_check',['../sparse__ops__utils_8h.html#a5a8411338d3eef3620c7f5be3803c7cd',1,'sparse_ops_utils.h']]],
+  ['tensor_5ftype_5fmust_5fbe_25',['TENSOR_TYPE_MUST_BE',['../sparse__ops__utils_8h.html#a003b5640cfa59fe8f5da9b1c9fcb8f26',1,'sparse_ops_utils.h']]],
+  ['tensoraccessor_26',['TensorAccessor',['../classfbgemm__gpu_1_1_tensor_accessor.html',1,'TensorAccessor&lt; T, N, PtrTraits, index_t &gt;'],['../classfbgemm__gpu_1_1_tensor_accessor.html#a6b681d8fc7f13b4b8d31426ec10a0f11',1,'fbgemm_gpu::TensorAccessor::TensorAccessor()'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a55169dff4cc835156c5ccd43240b4c8c',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::TensorAccessor()']]],
+  ['tensoraccessor_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_27',['TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html',1,'fbgemm_gpu']]],
+  ['tensoraccessorbase_28',['TensorAccessorBase',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'TensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;'],['../classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af',1,'fbgemm_gpu::TensorAccessorBase::TensorAccessorBase()']]],
+  ['tensoraccessorbase_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_29',['TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['tensoraccessorbase_3c_20t_2c_20n_2c_20defaultptrtraits_2c_20int64_5ft_20_3e_30',['TensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['tensors_5fempty_5for_5fon_5fsame_5fdevice_31',['TENSORS_EMPTY_OR_ON_SAME_DEVICE',['../sparse__ops__utils_8h.html#a3df91ae56fe10d1c002bed63e5b78d1b',1,'sparse_ops_utils.h']]],
+  ['tensors_5fhave_5fsame_5fnumel_32',['TENSORS_HAVE_SAME_NUMEL',['../sparse__ops__utils_8h.html#a9be1e573e7d3e35f3db03210e2624e61',1,'sparse_ops_utils.h']]],
+  ['tensors_5fhave_5fsame_5ftype_33',['TENSORS_HAVE_SAME_TYPE',['../sparse__ops__utils_8h.html#a97687675a3398d3168fe8f07a1b4db87',1,'sparse_ops_utils.h']]],
+  ['tensors_5fon_5fsame_5fcuda_5fgpu_5fif_5fnot_5foptional_34',['TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL',['../sparse__ops__utils_8h.html#a4724e1d67266b6998b8fe4ef1ec743d9',1,'sparse_ops_utils.h']]],
+  ['tensors_5fon_5fsame_5fdevice_35',['TENSORS_ON_SAME_DEVICE',['../sparse__ops__utils_8h.html#aa6ef8e13e3280066cc5f4f0970d3e7a6',1,'sparse_ops_utils.h']]],
+  ['test_36',['TEST',['../embedding__inplace__update__test_8cpp.html#a8eb96d7f557ba896e48fef81f259d7a5',1,'TEST(EmbeddingInplaceUpdateTest, random_update):&#160;embedding_inplace_update_test.cpp'],['../cpu__kernel__test_8cpp.html#aa2c7091971cf4fd4bcbb3215ebe612cf',1,'TEST(cpu_kernel_test, csr2csc_test):&#160;cpu_kernel_test.cpp'],['../sparse__ops__utils__test_8cpp.html#a9011669ae997bae59aa8f141bd794f11',1,'TEST(sparse_ops_utils_test, undefined_tensors_do_not_trigger):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#a2d4ac7a4fb22c0789d8510d17f3878db',1,'TEST(sparse_ops_utils_test, cpu_tensors_fail):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#adc3b9330a7cac1cf2e07268fe7a6bd17',1,'TEST(sparse_ops_utils_test, gpu_tensors_pass):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#ae888046a03bb3fe0f87d23c4915f6994',1,'TEST(sparse_ops_utils_test, optional_tensor_passes):&#160;sparse_ops_utils_test.cpp'],['../tensor__assert__test_8cpp.html#af3ce575ab5810b31aae3455d53faacee',1,'TEST(tensor_assert_test, gpu_asserts):&#160;tensor_assert_test.cpp'],['../uvm__cache__miss__emulate__test_8cpp.html#aab721325808448b876b97faee4b751b9',1,'TEST(uvm_cache_miss_emulate_test, no_cache_miss):&#160;uvm_cache_miss_emulate_test.cpp'],['../uvm__cache__miss__emulate__test_8cpp.html#acdba631ddc8a5dc4e4ee2c02959d3e14',1,'TEST(uvm_cache_miss_emulate_test, enforced_cache_miss):&#160;uvm_cache_miss_emulate_test.cpp']]],
+  ['test_5fembedding_5finplace_5fupdate_37',['test_embedding_inplace_update',['../embedding__inplace__update__test_8cpp.html#aac82e2990c8f2f7d3957f862975181a0',1,'embedding_inplace_update_test.cpp']]],
+  ['thrust_5ffind_5fqparams_38',['thrust_find_qparams',['../namespacefbgemm__gpu.html#a6c54f589eee05a58cebd4cf7cf8b1086',1,'fbgemm_gpu::thrust_find_qparams(scalar_t *input_row, int D)'],['../namespacefbgemm__gpu.html#a8145ebe65a5242bd7a3a15de0d69a70b',1,'fbgemm_gpu::thrust_find_qparams(fbgemm_gpu::Vec4T&lt; scalar_t &gt; *input_row, int D)']]],
+  ['to_5fbfloat16_39',['to_bfloat16',['../namespacefbgemm__gpu.html#a9d1e20705b5c1c16dd554c81b3766b93',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f16_40',['to_bfloat16_16',['../namespacefbgemm__gpu.html#a3f6b99cce95aa3d297e4b824e577d62d',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f2_41',['to_bfloat16_2',['../namespacefbgemm__gpu.html#a2b8a7fb1619f338df717ef075fe513e4',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f4_42',['to_bfloat16_4',['../namespacefbgemm__gpu.html#a7d0d7114d05a683328a782804ef2bef9',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f8_43',['to_bfloat16_8',['../namespacefbgemm__gpu.html#a74f150a063fed3144f6d99cde2d46069',1,'fbgemm_gpu']]],
+  ['to_5fhalf_44',['to_half',['../namespacefbgemm__gpu.html#a3e13c4ba1e371f3bcabf7f6f74ac103e',1,'fbgemm_gpu']]],
+  ['to_5fhalf16_45',['to_half16',['../namespacefbgemm__gpu.html#a776872b9c8f667b7d05aea83e7287d5d',1,'fbgemm_gpu']]],
+  ['to_5fhalf2_46',['to_half2',['../namespacefbgemm__gpu.html#aaed7807ac8eef0fb786324d5935c4aca',1,'fbgemm_gpu']]],
+  ['to_5fhalf4_47',['to_half4',['../namespacefbgemm__gpu.html#aee1f23de5e5847146cd821595d1978ae',1,'fbgemm_gpu']]],
+  ['to_5fhalf8_48',['to_half8',['../namespacefbgemm__gpu.html#a40088f5e88d0985b0c9b08808c40e1dd',1,'fbgemm_gpu']]],
+  ['topology_5futils_2ecpp_49',['topology_utils.cpp',['../topology__utils_8cpp.html',1,'']]],
+  ['topology_5futils_2eh_50',['topology_utils.h',['../topology__utils_8h.html',1,'']]],
+  ['torch_5flibrary_5ffragment_51',['TORCH_LIBRARY_FRAGMENT',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__none_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__none_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../batch__index__select__dim0__cpu__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__cpu__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;batch_index_select_dim0_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;batch_index_select_dim0_host.cpp'],['../embedding__backward__dense__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_backward_dense_host.cpp'],['../embedding__backward__dense__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_backward_dense_host.cpp'],['../embedding__bounds__check__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__forward__quantized__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_forward_quantized_host.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_forward_quantized_host_cpu.cpp'],['../embedding__optimizer__split__host__template_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_optimizer_split_host_template.cpp'],['../embedding__inplace__update__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_inplace_update_cpu.cpp'],['../embedding__inplace__update__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_inplace_update_gpu.cpp'],['../input__combine__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;input_combine_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;jagged_tensor_ops_cpu.cpp'],['../layout__transform__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;layout_transform_ops_cpu.cpp'],['../namespacefbgemm__gpu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'fbgemm_gpu::TORCH_LIBRARY_FRAGMENT()'],['../merge__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;merge_pooled_embedding_ops_cpu.cpp'],['../merge__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;merge_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_split_cpu.cpp'],['../permute__pooled__embedding__ops__split__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_split_gpu.cpp'],['../quantize__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;quantize_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_ops_gpu.cpp'],['../sparse__zipf_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_zipf.cu'],['../split__embeddings__utils_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;split_embeddings_utils.cpp']]],
+  ['torch_5flibrary_5fimpl_52',['TORCH_LIBRARY_IMPL',['../namespacefbgemm__gpu.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'fbgemm_gpu::TORCH_LIBRARY_IMPL()'],['../jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65',1,'TORCH_LIBRARY_IMPL(fbgemm, Autograd, m):&#160;jagged_tensor_ops_autograd.cpp'],['../jagged__tensor__ops__autograd_8cpp.html#a5eca359a14102dd9fcab1f8e80594472',1,'TORCH_LIBRARY_IMPL(fbgemm, CompositeImplicitAutograd, m):&#160;jagged_tensor_ops_autograd.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#aa138561d0eb99d73b2bf9586b84e7c46',1,'TORCH_LIBRARY_IMPL(fbgemm, CompositeExplicitAutograd, m):&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;jagged_tensor_ops_meta.cpp'],['../layout__transform__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;layout_transform_ops_cpu.cpp'],['../layout__transform__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'TORCH_LIBRARY_IMPL(fbgemm, CUDA, m):&#160;layout_transform_ops_gpu.cpp'],['../quantize__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;quantize_ops_cpu.cpp'],['../quantize__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;quantize_ops_meta.cpp'],['../sparse__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65',1,'TORCH_LIBRARY_IMPL(fbgemm, Autograd, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#af0fdef89a7a61f1f510ed4bb5f6d5398',1,'TORCH_LIBRARY_IMPL(fbgemm, AutogradCPU, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'TORCH_LIBRARY_IMPL(fbgemm, CUDA, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__gpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__gpu_8cpp.html#a8fd406590cd83f4dec4a63c7c1b9ce78',1,'TORCH_LIBRARY_IMPL(fbgemm, AutogradCUDA, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_meta.cpp'],['../split__embeddings__utils_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;split_embeddings_utils.cpp']]],
+  ['torch_5ftensor_5fdevice_5fname_53',['torch_tensor_device_name',['../sparse__ops__utils_8h.html#a535403fdc5c523b45f0d56d657e17f7b',1,'torch_tensor_device_name(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a319c921d3abe8bdb14140b45afe9afdb',1,'torch_tensor_device_name(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fempty_5for_5fon_5fcpu_5fcheck_54',['torch_tensor_empty_or_on_cpu_check',['../sparse__ops__utils_8h.html#a6328f240dd58293d0349471dca28797e',1,'torch_tensor_empty_or_on_cpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#afc4520e447e8ad48a316af75860d84ae',1,'torch_tensor_empty_or_on_cpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fempty_5for_5fon_5fcuda_5fgpu_5fcheck_55',['torch_tensor_empty_or_on_cuda_gpu_check',['../sparse__ops__utils_8h.html#abb9778e9fb75a70593c27e53dca268cd',1,'torch_tensor_empty_or_on_cuda_gpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#aac863615b6eba91282fcf07b5e9a5460',1,'torch_tensor_empty_or_on_cuda_gpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fcpu_5fcheck_56',['torch_tensor_on_cpu_check',['../sparse__ops__utils_8h.html#ad971d56f6b82b6c62a2d6fed276b0463',1,'torch_tensor_on_cpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#af4afd1e331412cf092a70d0fd816aed8',1,'torch_tensor_on_cpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fcuda_5fgpu_5fcheck_57',['torch_tensor_on_cuda_gpu_check',['../sparse__ops__utils_8h.html#a5568d44e6066339da1326798f9637b16',1,'torch_tensor_on_cuda_gpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a99211623695fce2a359b74a5823b58b8',1,'torch_tensor_on_cuda_gpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fsame_5fdevice_5fcheck_58',['torch_tensor_on_same_device_check',['../sparse__ops__utils_8h.html#a5683dd4c2143c3c0ba0eeb80fd5223f0',1,'torch_tensor_on_same_device_check(const at::Tensor &amp;ten1, const at::Tensor &amp;ten2):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#ac60c66ce5a4058e4906907960f82f1be',1,'torch_tensor_on_same_device_check(const at::Tensor &amp;ten1, const c10::optional&lt; at::Tensor &gt; &amp;ten2):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fundefined_59',['torch_tensor_undefined',['../sparse__ops__utils_8h.html#ab583553d9bf8ca92fadb8a81ffd40cd8',1,'torch_tensor_undefined(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a5e916ca6a05a17d36e5341d929cc18e0',1,'torch_tensor_undefined(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['total_5fl_60',['total_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528',1,'total_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528',1,'total_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['total_5fl_5foffsets_61',['total_L_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aa162b310777fc83fbde6ed5d0d35df4c',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['total_5fload_5fd_62',['total_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730',1,'total_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730',1,'total_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['transformation_20cpu_20operators_63',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
+  ['transformation_20cuda_20operators_64',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]],
+  ['transpose_65',['transpose',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa4aba7637a10c7b8b839ef27952e855d',1,'fbgemm_gpu::GenericPackedTensorAccessor::transpose()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a0ed7d1e6f585332c781fc568e1fad1ac',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::transpose()']]],
+  ['transpose_5fembedding_5finput_66',['transpose_embedding_input',['../split__embeddings__utils_8cuh.html#a508f832d3fec529868cbb1f9fa9defc8',1,'transpose_embedding_input(at::Tensor hash_size_cumsum, int64_t total_hash_size_bits, at::Tensor indices, at::Tensor offsets, bool nobag=false, const c10::optional&lt; at::Tensor &gt; &amp;vbe_b_t_map=c10::optional&lt; at::Tensor &gt;(), const int64_t info_B_num_bits=26, const int64_t info_B_mask=0x2FFFFFF, const int64_t total_unique_indices=-1, const bool is_index_select=false, const c10::optional&lt; at::Tensor &gt; &amp;total_L_offsets=c10::optional&lt; at::Tensor &gt;(), const int64_t fixed_L_per_warp=0, const int64_t num_warps_per_feature=0):&#160;split_embeddings_utils.cuh'],['../transpose__embedding__input_8cu.html#a569a769e3233130cce363d9ae151bd26',1,'transpose_embedding_input(Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, bool nobag, const c10::optional&lt; Tensor &gt; &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask, const int64_t total_unique_indices, const bool is_index_select, const c10::optional&lt; Tensor &gt; &amp;total_L_offsets, const int64_t fixed_L_per_warp, const int64_t num_warps_per_feature):&#160;transpose_embedding_input.cu']]],
+  ['transpose_5fembedding_5finput_2ecu_67',['transpose_embedding_input.cu',['../transpose__embedding__input_8cu.html',1,'']]],
+  ['trapz_5fkernel_68',['trapz_kernel',['../namespacefbgemm__gpu.html#a45142e19fe831c9d085bb097b7d946b2',1,'fbgemm_gpu']]],
+  ['true_69',['true',['../gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__backward__split__grad_8cu.html#af0ccb06b8169682c123d1399ed8e1869',1,'true(const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; dev_or_uvm_unique_indices, const int info_B_num_bits):&#160;gen_embedding_backward_split_grad.cu'],['../namespacenbit.html#ae298c42e84018c608c72200f61270827',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a9233b0f37aec7890155371e3f1f8a4c6',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ad461b37bcc67ce85965ea3d63318b609',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6610e53a686bcaa7c0c055493223b286',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa0e536c5986677aa5c753d497c9ec6ea',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a744a48f6ba12a807eed65323fac0d7b9',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa7f9e825cb23814721fa128e75fd54df',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#af5e4b89707ccb6db711f4b214120f6d4',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae950ec6b1a6c8e70896ceea8585e8a94',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a80b1856aa5c50bef02b6cfc6e07a738f',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5190453e12b3ae3d90ccbad2d0fd3366',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aeab80be016250076834edd018371fadc',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ac4473fe74a275df878cef6094b97142f',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5e7304badb9669f2af28007bc9faa533',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a000a2e8569876d491d4d9578f5bca2fb',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a1b561270c0c573adbb9b099b20a3ca71',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa4e2b761fd2635bd5d972c84f9e28837',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aea0485b6b1bbf758999bd85f6affc052',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ab843cff102b60ffbfb639c2371b90f7b',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a085775b780406668fe81c55a30eb3098',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5614c839b9baa44dd6962fe11a148918',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#af580fa47263724bff70ce910764bea41',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#acb54005a5872970a6721deca8ff5cd99',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a7d2686b58c584f889807ad3902056eac',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a06d07c66722a850f758f54932d3dbe17',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1aa60c6099666e18389fa1e982910986',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8de160ae737c50e86160493247817870',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa74dcf7a765d22c0b1ec49310c9a04b3',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5649e552b4b7bb69095114018ba395fb',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9ec2bf37e5db917feed838745ed81985',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a16cf98f36e41cdcacdb6dabac0b258e0',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ab6f0a4b5648537896b38264e4d38f9aa',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e7e3a44299ea276cb2e5f5082977777',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3d5bd72dd7f6e6c6b0a50b2070e74f45',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af605abd85d3cc9e6dca40ea687104f6e',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9c2ae1d1bfa19b2caadbc8e76c32697c',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa41a6064cb3571ecd43c9da816216785',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a66d27435490ba7673e7362fca9cc8f7e',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad88bb49652d4d156c75abb8ca2419542',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0a28fe8dcfa38da6241b67d3ec3e4ff2',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a09d02507a5cf390975fafa6a5c7096e8',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa93f293dcfd38afcd57776f33ceb8490',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab59b0abf8963d48e63c90334daea4fc5',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab80c4590dcdff94d23d4f89f1c7e0039',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#addc9e8fb4cd569b143bff818ca6e068b',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aca3f7571841f3f5e46e703a210f5ef3d',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afeba51154f1a22327b47305480f43671',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a4a3bc2db616d7f8f845d8e0cd092fd56',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['two_5fto_5fe_70',['two_to_e',['../verify__fp16__stochastic__benchmark_8cu.html#ab29b4915253bcafe11f5d95cfb227c0b',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['type_71',['type',['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type'],['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type'],['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type']]]
+];
diff --git a/search/all_15.js b/search/all_15.js
new file mode 100644
index 000000000..b2cfb5921
--- /dev/null
+++ b/search/all_15.js
@@ -0,0 +1,21 @@
+var searchData=
+[
+  ['uint32_5ft_0',['uint32_t',['../gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad',1,'gen_embedding_backward_split_grad.cu']]],
+  ['uint8_5ft_1',['uint8_t',['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#a1360e7840ee58417b26bf9445f94c59d',1,'nbit::uint8_t'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]],
+  ['unbucketize_5fpermute_5fdata_2',['unbucketize_permute_data',['../namespacefbgemm__gpu.html#aa403c596f919b42af361fc6554cce9e0',1,'fbgemm_gpu']]],
+  ['uncalibrated_3',['uncalibrated',['../namespacefbgemm__gpu.html#a7b13aa0c4501d0593484a73afe8786c2',1,'fbgemm_gpu']]],
+  ['unpack_5fsegments_5fcuda_5fkernel_4',['unpack_segments_cuda_kernel',['../namespacefbgemm__gpu.html#a0ca17769ee2a4593b447a78e3d3fe429',1,'fbgemm_gpu']]],
+  ['unpadded_5frow_5fsize_5fin_5fbytes_5',['unpadded_row_size_in_bytes',['../namespacenbit.html#a7654c0df9e54aa58c35fe39c53130cbc',1,'nbit']]],
+  ['uoffset_5ft_6',['uoffset_t',['../namespacefbgemm__gpu.html#ae8406b85b19117866badffef9481f3e2',1,'fbgemm_gpu']]],
+  ['use_5flxu_5fcache_7',['use_lxu_cache',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e',1,'use_lxu_cache:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e',1,'use_lxu_cache:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['uvm_5fcache_5fmiss_5femulate_5ftest_2ecpp_8',['uvm_cache_miss_emulate_test.cpp',['../uvm__cache__miss__emulate__test_8cpp.html',1,'']]],
+  ['uvm_5fcache_5fstats_5findex_9',['uvm_cache_stats_index',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aa',1,'fbgemm_gpu']]],
+  ['uvm_5fcuda_5fmem_5fadvise_10',['uvm_cuda_mem_advise',['../group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370',1,'fbgemm_gpu']]],
+  ['uvm_5fcuda_5fmem_5fprefetch_5fasync_11',['uvm_cuda_mem_prefetch_async',['../group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081',1,'fbgemm_gpu']]],
+  ['uvm_5fmem_5fadvice_5fdont_5ffork_12',['uvm_mem_advice_dont_fork',['../group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8',1,'fbgemm_gpu']]],
+  ['uvm_5fstorage_13',['uvm_storage',['../group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fcpu_14',['uvm_to_cpu',['../group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fcpu_5fclone_15',['uvm_to_cpu_clone',['../group__cumem-utils.html#ga161495e682d9eac3701dca87469930db',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fdevice_16',['uvm_to_device',['../group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e',1,'fbgemm_gpu']]],
+  ['uvm_5fweights_17',['uvm_weights',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a45c4a9176e8f636d292288647fdeff77',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a653cbc621a5959ad8f3951a92154c616',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a02abd4b4f2f2745d8c6e8c696d70c025',1,'uvm_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]]
+];
diff --git a/search/all_16.js b/search/all_16.js
new file mode 100644
index 000000000..4299d251d
--- /dev/null
+++ b/search/all_16.js
@@ -0,0 +1,36 @@
+var searchData=
+[
+  ['val_0',['val',['../bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87',1,'val:&#160;bench_utils.cuh'],['../jagged__tensor__ops_2common_8cuh.html#a34f893695235597b772faca329b14963',1,'val:&#160;common.cuh']]],
+  ['vals_1',['vals',['../struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3',1,'StackArray']]],
+  ['value_2',['value',['../structlog2__calc__.html#a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9',1,'log2_calc_::value'],['../structlog2__calc___3_010_01_4.html#adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9',1,'log2_calc_&lt; 0 &gt;::value'],['../structlog2__calc.html#a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9',1,'log2_calc::value']]],
+  ['values_5fdata_3',['values_data',['../namespacefbgemm__gpu.html#af7acf47e01ed08917ef22330aaa8f95d',1,'fbgemm_gpu']]],
+  ['vec4_5facc_4',['vec4_acc',['../namespacefbgemm__gpu.html#ab2a027e4907e39797b913faa6b4e7270',1,'fbgemm_gpu']]],
+  ['vec4_5fmax_5',['vec4_max',['../namespacefbgemm__gpu.html#a635410cfe229b71efb90199b72107f86',1,'fbgemm_gpu']]],
+  ['vec4_5fmin_6',['vec4_min',['../namespacefbgemm__gpu.html#ae8a02a5464fb9156400157b45a947c58',1,'fbgemm_gpu']]],
+  ['vec4_5ftype_7',['vec4_type',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['vec4acct_8',['Vec4AccT',['../structfbgemm__gpu_1_1_vec4_acc_t.html',1,'Vec4AccT'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90',1,'fbgemm_gpu::Vec4AccT::Vec4AccT()']]],
+  ['vec4stept_9',['Vec4StepT',['../structfbgemm__gpu_1_1_vec4_step_t.html',1,'Vec4StepT&lt; STEP, input_t &gt;'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a6d2826b97c8d5f17a31ed7e7854615ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::Vec4StepT()']]],
+  ['vec4stept_3c_20step_2c_20at_3a_3ahalf_20_3e_10',['Vec4StepT&lt; STEP, at::Half &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4stept_3c_20step_2c_20float_20_3e_11',['Vec4StepT&lt; STEP, float &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4stept_3c_20step_2c_20uint8_5ft_20_3e_12',['Vec4StepT&lt; STEP, uint8_t &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_13',['Vec4T',['../structfbgemm__gpu_1_1_vec4_t.html',1,'Vec4T&lt; T &gt;'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const double *p)']]],
+  ['vec4t_3c_20at_3a_3abfloat16_20_3e_14',['Vec4T&lt; at::BFloat16 &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20at_3a_3ahalf_20_3e_15',['Vec4T&lt; at::Half &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20double_20_3e_16',['Vec4T&lt; double &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20float_20_3e_17',['Vec4T&lt; float &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4type_18',['Vec4Type',['../struct_vec4_type.html',1,'']]],
+  ['vec4type_3c_20at_3a_3ahalf_20_3e_19',['Vec4Type&lt; at::Half &gt;',['../struct_vec4_type_3_01at_1_1_half_01_4.html',1,'']]],
+  ['vec4type_3c_20float_20_3e_20',['Vec4Type&lt; float &gt;',['../struct_vec4_type_3_01float_01_4.html',1,'']]],
+  ['vec4type_3c_20uint8_5ft_20_3e_21',['Vec4Type&lt; uint8_t &gt;',['../struct_vec4_type_3_01uint8__t_01_4.html',1,'']]],
+  ['vec_5fcopy_5fwith_5fimplicit_5ftype_5fcast_22',['vec_copy_with_implicit_type_cast',['../namespacefbgemm__gpu.html#a8c639f9912105390e4083332e01ecc57',1,'fbgemm_gpu']]],
+  ['vec_5fcopy_5fwith_5fimplicit_5ftype_5fcast_3c_20int64_5ft_2c_20int32_5ft_2c_20vec_5fwidth_20_3e_23',['vec_copy_with_implicit_type_cast&lt; int64_t, int32_t, VEC_WIDTH &gt;',['../namespacefbgemm__gpu.html#a6b717a692f34f1bc7afb9eec6d5f9a2e',1,'fbgemm_gpu']]],
+  ['vec_5fwidth_24',['VEC_WIDTH',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;embedding_forward_split_kernel_v2_template.cu'],['../namespacefbgemm__gpu.html#a14fea42ceabd6ac042ad0d2fe5452762',1,'fbgemm_gpu::VEC_WIDTH(combined_indices, indices_addrs[list_id], src_idx, indices_start+src_idx, indices_end - indices_start)'],['../namespacefbgemm__gpu.html#a5aef253d76748f681c0e5d7e1620c8c9',1,'fbgemm_gpu::VEC_WIDTH(combined_lengths, lengths_addrs[list_id], src_idx, lengths_start+src_idx, lengths_end - lengths_start)']]],
+  ['vecnt_25',['VecNT',['../structfbgemm__gpu_1_1_vec_n_t.html',1,'VecNT&lt; N, PrimitiveType &gt;'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac774386ebb8ac7021a221b0d32041e40',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::VecNT(float a)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a762e9c277918a40b3e1577984507b77d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::VecNT(half2 a)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ae4b5f2ee834300f0c91a1e1f247b56a5',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::VecNT(uint32_t v, const int exp_bits, const int exp_bias)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)']]],
+  ['vecnt_3c_201_2c_20primitivetype_3a_3afp_20_3e_26',['VecNT&lt; 1, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_2016_2c_20primitivetype_3a_3aint_20_3e_27',['VecNT&lt; 16, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_202_2c_20primitivetype_3a_3afp_20_3e_28',['VecNT&lt; 2, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_204_2c_20primitivetype_3a_3afp_20_3e_29',['VecNT&lt; 4, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_204_2c_20primitivetype_3a_3aint_20_3e_30',['VecNT&lt; 4, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_208_2c_20primitivetype_3a_3aint_20_3e_31',['VecNT&lt; 8, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]],
+  ['verify_5ffp16_5fstochastic_5fbenchmark_2ecu_32',['verify_fp16_stochastic_benchmark.cu',['../verify__fp16__stochastic__benchmark_8cu.html',1,'']]]
+];
diff --git a/search/all_17.js b/search/all_17.js
new file mode 100644
index 000000000..87954c22c
--- /dev/null
+++ b/search/all_17.js
@@ -0,0 +1,25 @@
+var searchData=
+[
+  ['warning_0',['WARNING',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaa059e9861e0400dfbe05c98a841f3f96b',1,'fbgemm_gpu']]],
+  ['warp_5fcopy_5fto_1',['warp_copy_to',['../structfbgemm__gpu_1_1_weight_row.html#a4a0da3213c0d4a99586cbe6e6ec72107',1,'fbgemm_gpu::WeightRow']]],
+  ['warp_5fevict_2',['warp_evict',['../structfbgemm__gpu_1_1_weight_row.html#ae00ddf1640cea584b79618dfd69d91d2',1,'fbgemm_gpu::WeightRow']]],
+  ['warp_5ffind_5fqparams_3',['warp_find_qparams',['../namespacefbgemm__gpu.html#a78a26de691da2f45a0e4ddaeda75009d',1,'fbgemm_gpu']]],
+  ['warp_5fid_4',['warp_id',['../namespacefbgemm__gpu.html#a039dca4bc32e9ad20122b5855542e292',1,'fbgemm_gpu']]],
+  ['warp_5foffsets_5fgroup_5',['warp_offsets_group',['../namespacefbgemm__gpu.html#aecfb31f7c9583dd16ed7463ad8328db4',1,'fbgemm_gpu']]],
+  ['warp_5freduce_5fmax_6',['warp_reduce_max',['../namespacefbgemm__gpu.html#acddba9c219634f979df1c8b943ac5e88',1,'fbgemm_gpu']]],
+  ['warp_5freduce_5fmin_7',['warp_reduce_min',['../namespacefbgemm__gpu.html#af554571b877e978f495835af1920f4fb',1,'fbgemm_gpu']]],
+  ['warpbitonicmergele16_8',['warpBitonicMergeLE16',['../namespacefbgemm__gpu.html#a9bd92b10074adc4fc58e4671a1d1d576',1,'fbgemm_gpu']]],
+  ['warpreduceallsum_9',['warpReduceAllSum',['../namespacefbgemm__gpu.html#ad47dc8c3cfd941ea7a92b1cb677abf8e',1,'fbgemm_gpu']]],
+  ['weight_10',['weight',['../namespacefbgemm__gpu.html#ab1426ad1956909abff1b26d04575767a',1,'fbgemm_gpu']]],
+  ['weight_5fdecay_11',['weight_decay',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a55c90ffc934511c5239912ee28729c08',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weight_5fdecay_5fmode_12',['weight_decay_mode',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a29382d4f16f27e176ace0d7a6c14bedd',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weight_5foffset_13',['WEIGHT_OFFSET',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['weighted_5fsum_14',['weighted_sum',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::weighted_sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::weighted_sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::weighted_sum()']]],
+  ['weightrow_15',['WeightRow',['../structfbgemm__gpu_1_1_weight_row.html',1,'WeightRow&lt; emb_t, cache_t, dst_t &gt;'],['../structfbgemm__gpu_1_1_weight_row.html#acb13973152d6d76389dafdf6e69e6793',1,'fbgemm_gpu::WeightRow::WeightRow()']]],
+  ['weights_16',['weights',['../structinternal_1_1_hyper_compressed_sparse_column.html#a210dc23584593727ddf26671264aa16a',1,'internal::HyperCompressedSparseColumn::weights'],['../namespacefbgemm__gpu.html#adc8829ea4c8f30f6aaef00680ba3754a',1,'fbgemm_gpu::weights']]],
+  ['weights_5fdata_17',['weights_data',['../namespacefbgemm__gpu.html#a1148e12a9142c43e97064ffe24a0aa63',1,'fbgemm_gpu']]],
+  ['weights_5foffsets_18',['weights_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299',1,'weights_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a8952c1fa3b8169bec4e9aa6f07ce2271',1,'weights_offsets:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a7d1fc13d818566d961fdf0fd44612dbb',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9af84081fe94d1658365400ffcb263bc',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a68c2c016f330babab668514e78cb3bf1',1,'weights_offsets:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weights_5fplacements_19',['weights_placements',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a9a841e0386a10dcd6aa2fce96a7880b8',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af6ffac73b54018941c14b57180e69abd',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a9987071f2ac942c5d6c47d628b971738',1,'weights_placements:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['while_20',['while',['../namespacefbgemm__gpu.html#a44128eca539acfe55bdf792616e8b5b6',1,'fbgemm_gpu']]],
+  ['write_5floop_5fsmall_5fls_21',['write_loop_small_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/all_18.js b/search/all_18.js
new file mode 100644
index 000000000..e2d8da4f7
--- /dev/null
+++ b/search/all_18.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['x_0',['X',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu']]],
+  ['xor128_1',['xor128',['../structfbgemm__gpu_1_1rk__state.html#a257f1349dcd98722e373947808b773c6',1,'fbgemm_gpu::rk_state']]]
+];
diff --git a/search/all_19.js b/search/all_19.js
new file mode 100644
index 000000000..ae5adc93e
--- /dev/null
+++ b/search/all_19.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['y_0',['Y',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;embedding_forward_quantized_split_nbit_host_template.cu']]]
+];
diff --git a/search/all_1a.js b/search/all_1a.js
new file mode 100644
index 000000000..6e78def8d
--- /dev/null
+++ b/search/all_1a.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['zipf_5fcuda_0',['zipf_cuda',['../namespacefbgemm__gpu.html#a957e5dced6114b32a6d2e5e62011adbf',1,'fbgemm_gpu']]],
+  ['zipf_5fkernel_1',['zipf_kernel',['../namespacefbgemm__gpu.html#a6991817ca1213e7cc0eba3bad689c03a',1,'fbgemm_gpu']]]
+];
diff --git a/search/all_1b.js b/search/all_1b.js
new file mode 100644
index 000000000..28e447783
--- /dev/null
+++ b/search/all_1b.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['_7ehypercompressedsparsecolumn_0',['~HyperCompressedSparseColumn',['../structinternal_1_1_hyper_compressed_sparse_column.html#a60d5f8ac0716350bb51bcf02ed10aaeb',1,'internal::HyperCompressedSparseColumn']]],
+  ['_7einitializer_1',['~Initializer',['../classssd_1_1_initializer.html#a7a69aed99981539d9a2c0ee85459b4b6',1,'ssd::Initializer']]]
+];
diff --git a/search/all_2.js b/search/all_2.js
index 12377d589..a864338e2 100644
--- a/search/all_2.js
+++ b/search/all_2.js
@@ -1,7 +1,52 @@
 var searchData=
 [
-  ['data_20cpu_20operators_0',['data cpu operators',['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
-  ['data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]],
-  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_2',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
-  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_3',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]]
+  ['b_0',['b',['../structfbgemm__gpu_1_1_half4.html#a85c654c77d6c3fc7709e8dd1e7ec4a5e',1,'fbgemm_gpu::Half4']]],
+  ['b_1',['B',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8',1,'B:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8',1,'B:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab',1,'fbgemm_gpu::B']]],
+  ['b_2',['b',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6',1,'b:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6',1,'b:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#ab540864a8f4d5cfb95d168df6ff1ac51',1,'fbgemm_gpu::b']]],
+  ['backward_3',['backward',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html#ac7ddba5222bfda33f8a498f8394349bf',1,'fbgemm_gpu::PermutePooledEmbsFunction::backward()'],['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#ad62a42e85be3aa7f972677a4f7b710f9',1,'fbgemm_gpu::PermutePooledEmbsFunctionSplit::backward()']]],
+  ['ballot_5fsync_4',['ballot_sync',['../namespacefbgemm__gpu.html#ac9ef3cbe68285c5559d30c5157131e29',1,'fbgemm_gpu']]],
+  ['batch_5fauc_5',['batch_auc',['../namespacefbgemm__gpu.html#abeeb6bd4d39a0e534db2213258704285',1,'fbgemm_gpu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcodegen_5fbackward_5fcuda_6',['batch_index_select_dim0_codegen_backward_cuda',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#a5709eebbefa399282269508003e47e25',1,'batch_index_select_dim0_codegen_backward_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const int64_t max_segment_length_per_warp, const Tensor &amp;grad_offsets, const Tensor &amp;total_L_offsets, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../batch__index__select__dim0__host_8cpp.html#a5709eebbefa399282269508003e47e25',1,'batch_index_select_dim0_codegen_backward_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const int64_t max_segment_length_per_warp, const Tensor &amp;grad_offsets, const Tensor &amp;total_L_offsets, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcodegen_5fforward_5fcuda_7',['batch_index_select_dim0_codegen_forward_cuda',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a5951ed801e11a01c29c7bbfb648ee230',1,'batch_index_select_dim0_codegen_forward_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const int64_t output_dtype, const Tensor &amp;output_offsets, const Tensor &amp;total_L_offsets, const int64_t output_size, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../batch__index__select__dim0__host_8cpp.html#a5951ed801e11a01c29c7bbfb648ee230',1,'batch_index_select_dim0_codegen_forward_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const int64_t output_dtype, const Tensor &amp;output_offsets, const Tensor &amp;total_L_offsets, const int64_t output_size, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcpu_8',['batch_index_select_dim0_cpu',['../batch__index__select__dim0__cpu__host_8cpp.html#aa719f2231fb791074324f6bbeace9d0c',1,'batch_index_select_dim0_cpu_host.cpp']]],
+  ['batch_5findex_5fselect_5fdim0_5fcpu_5fhost_2ecpp_9',['batch_index_select_dim0_cpu_host.cpp',['../batch__index__select__dim0__cpu__host_8cpp.html',1,'']]],
+  ['batch_5findex_5fselect_5fdim0_5fgpu_10',['batch_index_select_dim0_gpu',['../batch__index__select__dim0__host_8cpp.html#a5bad7a4ddb5cf6144ad19b6296ef585c',1,'batch_index_select_dim0_host.cpp']]],
+  ['batch_5findex_5fselect_5fdim0_5fhost_2ecpp_11',['batch_index_select_dim0_host.cpp',['../batch__index__select__dim0__host_8cpp.html',1,'']]],
+  ['batch_5fsize_12',['batch_size',['../namespacefbgemm__gpu.html#add6df347839b36aa580f997fddaebf86',1,'fbgemm_gpu']]],
+  ['batch_5fsize_5foffsets_13',['batch_size_offsets',['../namespacefbgemm__gpu.html#afba1f0bf46d421e1e2834949792290e0',1,'fbgemm_gpu']]],
+  ['batch_5fsize_5fper_5ffeature_14',['batch_size_per_feature',['../namespacefbgemm__gpu.html#a34cfcac7aff478aac7e03c48a25b0447',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_15',['batched_dense_vec_jagged_2d_mul',['../group__jagged-tensor-ops-cpu.html#ga67afdd148d57be07278c9cb088b5ff4b',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_16',['batched_dense_vec_jagged_2d_mul_backward',['../namespacefbgemm__gpu.html#ae815e5156f29e106f0fcb6054d386afa',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_2ecu_17',['batched_dense_vec_jagged_2d_mul_backward.cu',['../batched__dense__vec__jagged__2d__mul__backward_8cu.html',1,'']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_5fmeta_18',['batched_dense_vec_jagged_2d_mul_backward_meta',['../namespacefbgemm__gpu.html#af5324c97be6dc5aecbc40e4e3244646f',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_19',['batched_dense_vec_jagged_2d_mul_forward',['../namespacefbgemm__gpu.html#ac3080e0008d5cdd9f1f32b33e38aee95',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_2ecu_20',['batched_dense_vec_jagged_2d_mul_forward.cu',['../batched__dense__vec__jagged__2d__mul__forward_8cu.html',1,'']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_5fmeta_21',['batched_dense_vec_jagged_2d_mul_forward_meta',['../namespacefbgemm__gpu.html#a399af8be70030a7aeaedbdf546efe61a',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fbackward_5fcuda_22',['batched_unary_embeddings_backward_cuda',['../namespacefbgemm__gpu.html#a0e4965515624f44fcd114ff1e5ff0998',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fforward_5fcpu_23',['batched_unary_embeddings_forward_cpu',['../namespacefbgemm__gpu.html#a96db75aa5b2617976c2937ab051b737e',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fforward_5fcuda_24',['batched_unary_embeddings_forward_cuda',['../namespacefbgemm__gpu.html#a9895cf76445e7258f2464bb037d2c54c',1,'fbgemm_gpu']]],
+  ['bench_5futils_2ecuh_25',['bench_utils.cuh',['../bench__utils_8cuh.html',1,'']]],
+  ['benchmark_5ffunction_26',['benchmark_function',['../bench__utils_8cuh.html#a8b8729bf92a232e1ff3403ebe7089fdd',1,'bench_utils.cuh']]],
+  ['bf_27',['BF',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a7b8d2f92148f52cad46e331936922e80',1,'fbgemm_gpu']]],
+  ['bf16_28',['BF16',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaf656bbf613964dcf710b771b0918ab30',1,'fbgemm_gpu']]],
+  ['bfloat16quantizedtofloat_5fref_29',['BFloat16QuantizedToFloat_ref',['../namespacefbgemm__gpu.html#a0f1d1afe56f116552e1ca9759e6e0fcc',1,'fbgemm_gpu']]],
+  ['bin_5fboundaries_30',['bin_boundaries',['../namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970',1,'fbgemm_gpu']]],
+  ['bin_5fctr_5fin_5fuse_5fafter_31',['bin_ctr_in_use_after',['../namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a',1,'fbgemm_gpu']]],
+  ['bin_5fctr_5fweight_5fvalue_32',['bin_ctr_weight_value',['../namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd',1,'fbgemm_gpu']]],
+  ['bin_5fids_5fdata_33',['bin_ids_data',['../namespacefbgemm__gpu.html#a24c7d1d72baa0efece963a4ed4db9c17',1,'fbgemm_gpu']]],
+  ['bin_5fnum_5fexamples_5fdata_34',['bin_num_examples_data',['../namespacefbgemm__gpu.html#ad09ae93c92bfe0fe061460cfe4acd611',1,'fbgemm_gpu']]],
+  ['bin_5fnum_5fpositives_5fdata_35',['bin_num_positives_data',['../namespacefbgemm__gpu.html#a6cf3109a8de0f8ef7a818474a2fec845',1,'fbgemm_gpu']]],
+  ['binary_5fsearch_5frange_36',['binary_search_range',['../namespacefbgemm__gpu.html#a13b4df4139f3c64ac4d8dbea51a7e7a0',1,'fbgemm_gpu']]],
+  ['binary_5fsearch_5frange_5fcpu_37',['binary_search_range_cpu',['../sparse__ops__utils_8h.html#a519154f3b89148b1b70e45d8c340ff81',1,'sparse_ops_utils.h']]],
+  ['bitonicsort_38',['BitonicSort',['../structfbgemm__gpu_1_1_bitonic_sort.html',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fpos_5fconcat_39',['block_bucketize_pos_concat',['../namespacefbgemm__gpu.html#acc943f4a5b9448babdf4b36ff9095dff',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fpos_5foffsets_40',['block_bucketize_pos_offsets',['../namespacefbgemm__gpu.html#a7caa87d119b6ee26ae8fe2b66671215c',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fsparse_5ffeatures_5fcpu_41',['block_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a270e4d8df103fa6c3e6750890608b566',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fsparse_5ffeatures_5fcuda_42',['block_bucketize_sparse_features_cuda',['../namespacefbgemm__gpu.html#a293dc249ac4679d97747778a7fb02bd5',1,'fbgemm_gpu']]],
+  ['block_5fsizes_5fdata_43',['block_sizes_data',['../namespacefbgemm__gpu.html#ab2cdb48bca4ebe95f2cdeedea09f549f',1,'fbgemm_gpu']]],
+  ['bounds_5fcheck_5f_44',['bounds_check_',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597',1,'fbgemm_gpu::GenericPackedTensorAccessorBase']]],
+  ['bounds_5fcheck_5findices_5fcuda_45',['bounds_check_indices_cuda',['../group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e',1,'bounds_check_indices_cuda(Tensor &amp;rows_per_table, Tensor &amp;indices, Tensor &amp;offsets, int64_t bounds_check_mode_, Tensor &amp;warning, const c10::optional&lt; Tensor &gt; &amp;weights, const c10::optional&lt; Tensor &gt; &amp;B_offsets, const int64_t max_B):&#160;embedding_bounds_check.cu'],['../group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e',1,'bounds_check_indices_cuda(Tensor &amp;rows_per_table, Tensor &amp;indices, Tensor &amp;offsets, int64_t bounds_check_mode, Tensor &amp;warning, const c10::optional&lt; Tensor &gt; &amp;weights, const c10::optional&lt; Tensor &gt; &amp;B_ofsets, const int64_t max_B):&#160;embedding_bounds_check.cu']]],
+  ['boundscheckmode_46',['BoundsCheckMode',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111ea',1,'fbgemm_gpu']]],
+  ['bucketize_5fsparse_5ffeatures_5fcpu_47',['bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a83c70249ce058969210bda8aedf671a4',1,'fbgemm_gpu']]],
+  ['bucketize_5fsparse_5ffeatures_5fcuda_48',['bucketize_sparse_features_cuda',['../namespacefbgemm__gpu.html#abb94f2bd00f8ee054a4a1d2417a093d1',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_3.js b/search/all_3.js
index e39df76fa..4f7f59675 100644
--- a/search/all_3.js
+++ b/search/all_3.js
@@ -1,6 +1,65 @@
 var searchData=
 [
-  ['embedding_20cpu_20operators_0',['Embedding CPU Operators',['../group__embedding-cpu.html',1,'']]],
-  ['embedding_20cuda_20operators_1',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]],
-  ['expand_5finto_5fjagged_5fpermute_5fcuda_2',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309',1,'fbgemm_gpu']]]
+  ['c_5fversion_0',['C_VERSION',['../_c_make_c_compiler_id_8c.html#adaee3ee7c5a7a22451ea25e762e1d7d5',1,'CMakeCCompilerId.c']]],
+  ['cache_5frow_5f_1',['cache_row_',['../structfbgemm__gpu_1_1_weight_row.html#a8ba350d1da8749a0975ab4c1f645de70',1,'fbgemm_gpu::WeightRow']]],
+  ['cache_5fvec_5ft_2',['cache_vec_t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98',1,'cache_vec_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98',1,'cache_vec_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['calc_5foffsets_5frange_5fthread_5fblock_3',['calc_offsets_range_thread_block',['../namespacefbgemm__gpu.html#ae0656dd690bcffdd8b470d894e25b2d8',1,'fbgemm_gpu']]],
+  ['calibrated_5fprediction_5fdata_4',['calibrated_prediction_data',['../namespacefbgemm__gpu.html#a5a04eca282d6278fd065294a91065404',1,'fbgemm_gpu']]],
+  ['cat_5freorder_5fbatched_5fad_5findices_5fcpu_5',['cat_reorder_batched_ad_indices_cpu',['../namespacefbgemm__gpu.html#a1ed236113fa360c41a2eb0507c3fc2c7',1,'fbgemm_gpu']]],
+  ['cat_5freorder_5fbatched_5fad_5findices_5fcpu_5f_6',['cat_reorder_batched_ad_indices_cpu_',['../namespacefbgemm__gpu.html#a6b5e65a3f532db97f093037c9dcb3902',1,'fbgemm_gpu']]],
+  ['cmakeccompilerid_2ec_7',['CMakeCCompilerId.c',['../_c_make_c_compiler_id_8c.html',1,'']]],
+  ['cmakecxxcompilerid_2ecpp_8',['CMakeCXXCompilerId.cpp',['../_c_make_c_x_x_compiler_id_8cpp.html',1,'']]],
+  ['column_5fsegment_5fids_9',['column_segment_ids',['../structinternal_1_1_hyper_compressed_sparse_column.html#a1e60e73bdb48b0daa00b9f6caa8c6728',1,'internal::HyperCompressedSparseColumn']]],
+  ['column_5fsegment_5findices_10',['column_segment_indices',['../structinternal_1_1_hyper_compressed_sparse_column.html#ad90d05e46d82122e7688be758b7cb43a',1,'internal::HyperCompressedSparseColumn']]],
+  ['column_5fsegment_5fptr_11',['column_segment_ptr',['../structinternal_1_1_hyper_compressed_sparse_column.html#ad1d5cb09cff5c55cbb74931bc58d8080',1,'internal::HyperCompressedSparseColumn']]],
+  ['combine_20input_20operators_12',['Combine Input Operators',['../group__input-combine.html',1,'']]],
+  ['combined_5flengths_13',['combined_lengths',['../namespacefbgemm__gpu.html#a176c2b8769558803ba0614bc04b7995f',1,'fbgemm_gpu']]],
+  ['combined_5fweights_14',['combined_weights',['../namespacefbgemm__gpu.html#a426e281c9c2dd29c0abe399f17ba8d6f',1,'fbgemm_gpu']]],
+  ['common_2ecuh_15',['common.cuh',['../jagged__tensor__ops_2common_8cuh.html',1,'(Global Namespace)'],['../memory__utils_2common_8cuh.html',1,'(Global Namespace)'],['../quantize__ops_2common_8cuh.html',1,'(Global Namespace)'],['../sparse__ops_2common_8cuh.html',1,'(Global Namespace)'],['../split__embeddings__cache_2common_8cuh.html',1,'(Global Namespace)']]],
+  ['common_2eh_16',['common.h',['../memory__utils_2common_8h.html',1,'(Global Namespace)'],['../split__embeddings__cache_2common_8h.html',1,'(Global Namespace)']]],
+  ['compact_17',['compact',['../classssd_1_1_embedding_rocks_d_b.html#a043cdfc194924194e381a986c229569e',1,'ssd::EmbeddingRocksDB']]],
+  ['compact_5fif_5fnecessary_18',['compact_if_necessary',['../classssd_1_1_embedding_rocks_d_b.html#a92b07dcd61720ad3a72dbbad89c26514',1,'ssd::EmbeddingRocksDB']]],
+  ['comparator_19',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]],
+  ['compiler_5fid_20',['COMPILER_ID',['../_c_make_c_compiler_id_8c.html#a81dee0709ded976b2e0319239f72d174',1,'COMPILER_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a81dee0709ded976b2e0319239f72d174',1,'COMPILER_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['compute_5ffrequency_5fsequence_21',['compute_frequency_sequence',['../namespacefbgemm__gpu.html#a6b41d7b032eb1abe61eee0bd903d8dfb',1,'fbgemm_gpu']]],
+  ['compute_5fnum_5fuint64s_22',['compute_num_uint64s',['../namespacefbgemm__gpu.html#af861e4a8f7b669619744fe59ca2f73a3',1,'fbgemm_gpu']]],
+  ['consumer_5fqueue_5f_23',['consumer_queue_',['../classssd_1_1_initializer.html#a794bafa095540403ada855b817d1d367',1,'ssd::Initializer']]],
+  ['convert_5ffloat_5fto_5fhalf_5fassemblefloat_24',['convert_float_to_half_assemblefloat',['../verify__fp16__stochastic__benchmark_8cu.html#abbb1b78a4249b42b116429258ac56174',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fbitcarry_25',['convert_float_to_half_bitcarry',['../verify__fp16__stochastic__benchmark_8cu.html#a46898a808f7408d99e7ad4c7fc0fea2a',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fdirect_26',['convert_float_to_half_direct',['../verify__fp16__stochastic__benchmark_8cu.html#a169a7087c41e8efae2d09cfc78fa802e',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fshortrand_27',['convert_float_to_half_shortrand',['../verify__fp16__stochastic__benchmark_8cu.html#ab109332ca0fae3f39a7d000348a1401c',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['copy_28',['copy',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aa3322732b0a44cf924b89a066f4503d4',1,'fbgemm_gpu::Vec4T&lt; float &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad6a7665bbc9596b7b9123c9a0605fe1c',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a140a9bcb80dcfae69a427d885d148952',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8af22674533453883301576ae485699c',1,'fbgemm_gpu::Vec4T&lt; double &gt;::copy()']]],
+  ['copy_5fstr_29',['copy_str',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9',1,'fbgemm_gpu::GenericPackedTensorAccessorBase']]],
+  ['cp_5fasync_5ffence_30',['cp_async_fence',['../namespacenbit.html#a9d3f5c31c0728bd8031522979f9fd236',1,'nbit']]],
+  ['cp_5fasync_5fwait_31',['cp_async_wait',['../namespacenbit.html#ab71806d51c0bb2fbc0b08fb3ed2b442e',1,'nbit']]],
+  ['cp_5fasync_5fwait_3c_200_20_3e_32',['cp_async_wait&lt; 0 &gt;',['../namespacenbit.html#a869b22b83f81fa2ed2302ceb80d9b9ca',1,'nbit']]],
+  ['cp_5fasync_5fzfill_33',['cp_async_zfill',['../namespacenbit.html#ac46112b67b5de646034bc1d35d44c8fe',1,'nbit']]],
+  ['cp_5fasync_5fzfill_5fcg_34',['cp_async_zfill_cg',['../namespacenbit.html#a7f38bc64db06ad5e5ee1b4efa55c349d',1,'nbit']]],
+  ['cpu_35',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['cpu_20operators_36',['CPU Operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
+  ['cpu_5fkernel_5ftest_2ecpp_37',['cpu_kernel_test.cpp',['../cpu__kernel__test_8cpp.html',1,'']]],
+  ['cpu_5futils_2eh_38',['cpu_utils.h',['../cpu__utils_8h.html',1,'']]],
+  ['csr2csc_39',['csr2csc',['../namespaceinternal.html#adff2ce52cb6a5e84b57614a452aa77d5',1,'internal']]],
+  ['csr2csc_3c_20double_20_3e_40',['csr2csc&lt; double &gt;',['../namespaceinternal.html#ab8f896e4d2c97b1369a8e5fb7d9408b7',1,'internal']]],
+  ['csr2csc_3c_20float_20_3e_41',['csr2csc&lt; float &gt;',['../namespaceinternal.html#a3715c6c222855aa1b842c358fe2a6420',1,'internal']]],
+  ['csr_5fseg_5fdata_42',['csr_seg_data',['../namespacefbgemm__gpu.html#a0523b0079ced4e8a092ec1f3e5b5a193',1,'fbgemm_gpu']]],
+  ['cub_5fnamespace_5fpostfix_2ecuh_43',['cub_namespace_postfix.cuh',['../cub__namespace__postfix_8cuh.html',1,'']]],
+  ['cub_5fnamespace_5fprefix_2ecuh_44',['cub_namespace_prefix.cuh',['../cub__namespace__prefix_8cuh.html',1,'']]],
+  ['cuda_45',['CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
+  ['cuda_20memory_20operators_46',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['cuda_20operators_47',['CUDA Operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
+  ['cuda_5fcalc_5fblock_5fcount_48',['cuda_calc_block_count',['../sparse__ops__utils_8h.html#ab702f2479ba0bedf91c18e0b644b210a',1,'sparse_ops_utils.h']]],
+  ['cuda_5fcalc_5fxblock_5fcount_49',['cuda_calc_xblock_count',['../sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369',1,'sparse_ops_utils.h']]],
+  ['cuda_5fcalc_5fxblock_5fcount_5fbase_50',['cuda_calc_xblock_count_base',['../sparse__ops__utils_8h.html#a885f787cafec301665604303ae43a2e3',1,'sparse_ops_utils.h']]],
+  ['cuda_5fcheck_51',['CUDA_CHECK',['../cuda__utils_8cuh.html#ad64d49299c3d240ae540a693ae38ca38',1,'cuda_utils.cuh']]],
+  ['cuda_5fdevice_5f_52',['cuda_device_',['../memory__utils_8cu.html#a96208d96b413317e110ff94d64c71ef4',1,'memory_utils.cu']]],
+  ['cuda_5fkernel_5floop_53',['CUDA_KERNEL_LOOP',['../namespacefbgemm__gpu.html#a14c0f0b2b6107f2b17eb472d9be9fb03',1,'fbgemm_gpu::CUDA_KERNEL_LOOP(b_t, lengths_size)'],['../namespacefbgemm__gpu.html#ab331d23c5119efeb513b36fed74c53b0',1,'fbgemm_gpu::CUDA_KERNEL_LOOP(r, lengths_size)']]],
+  ['cuda_5futils_2ecuh_54',['cuda_utils.cuh',['../cuda__utils_8cuh.html',1,'']]],
+  ['cumem_5futils_2eh_55',['cumem_utils.h',['../cumem__utils_8h.html',1,'']]],
+  ['curr_5fbin_5fid_56',['curr_bin_id',['../namespacefbgemm__gpu.html#aa80c593013706e17927a0cedd1d6dbb0',1,'fbgemm_gpu']]],
+  ['curr_5fbin_5fnum_5fexamples_57',['curr_bin_num_examples',['../namespacefbgemm__gpu.html#afce91df3fd14c65d1d464b891004b1da',1,'fbgemm_gpu']]],
+  ['curr_5foffset_58',['curr_offset',['../namespacefbgemm__gpu.html#a5774000010ec731b390787b3b5f72868',1,'fbgemm_gpu']]],
+  ['curr_5fsegment_5fvalue_59',['curr_segment_value',['../namespacefbgemm__gpu.html#a216663a22f5311b9ecf7c9bc64ee047d',1,'fbgemm_gpu']]],
+  ['cutlass_5fget_5fsmem_5fpointer_60',['cutlass_get_smem_pointer',['../namespacenbit.html#a64cf76bab7c5be6cb2b0c7d1b77443a5',1,'nbit::cutlass_get_smem_pointer(void *ptr)'],['../namespacenbit.html#a250008d643379010295dede0b64068c6',1,'nbit::cutlass_get_smem_pointer(void const *ptr)']]],
+  ['cxx_5fstd_61',['CXX_STD',['../_c_make_c_x_x_compiler_id_8cpp.html#a34cc889e576a1ae6c84ae9e0a851ba21',1,'CMakeCXXCompilerId.cpp']]]
 ];
diff --git a/search/all_4.js b/search/all_4.js
index 7e14db79a..39a5f8f39 100644
--- a/search/all_4.js
+++ b/search/all_4.js
@@ -1,4 +1,69 @@
 var searchData=
 [
-  ['for_20cuda_0',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]]
+  ['d_0',['D',['../classfbgemm__gpu_1_1_fixed_divisor.html#aa0904583fc7c962f6ae008052d6dadf7',1,'fbgemm_gpu::FixedDivisor::D()'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9',1,'D:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a952bac18af6443873547ada58c1e9f82',1,'D:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu']]],
+  ['d_5fflush2_1',['d_flush2',['../bench__utils_8cuh.html#a33347a1447f1a3618e698f9d5914c253',1,'bench_utils.cuh']]],
+  ['d_5foffsets_2',['D_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73',1,'D_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e9016830b84a13779c14bb73acce5b1',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['d_5fstart_3',['D_start',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c',1,'D_start:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c',1,'D_start:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['data_4',['data',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c',1,'fbgemm_gpu::TensorAccessorBase::data()'],['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b',1,'fbgemm_gpu::TensorAccessorBase::data() const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data() const'],['../jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31',1,'data:&#160;common.cuh']]],
+  ['data_20cpu_20operators_5',['Data CPU Operators',['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
+  ['data_20cuda_20operators_6',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]],
+  ['data_5f_7',['data_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069',1,'fbgemm_gpu::TensorAccessorBase::data_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data_']]],
+  ['db_5fshard_8',['db_shard',['../namespacessd.html#ac0918c17a5ef4ae94a7d4068512744f9',1,'ssd']]],
+  ['dec_9',['DEC',['../_c_make_c_compiler_id_8c.html#ad1280362da42492bbc11aa78cbf776ad',1,'DEC:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#ad1280362da42492bbc11aa78cbf776ad',1,'DEC:&#160;CMakeCXXCompilerId.cpp']]],
+  ['decl_5fradix_5fsort_5fpairs_5ffn_10',['DECL_RADIX_SORT_PAIRS_FN',['../split__embeddings__utils_8cuh.html#a91fe9e10ff5c98fe4952c9c0986476b4',1,'DECL_RADIX_SORT_PAIRS_FN:&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a07c7c57b2dd34f8dcede30593003253c',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, float):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a665ecb055cdda875801b442d35297e10',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, double):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a68379ca489210e052be87595ff7c1ec7',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, int64_t):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a94564bf3eeebee1b64b0fe3ba0b3b7e0',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, int32_t):&#160;split_embeddings_utils.cuh']]],
+  ['def_5fradix_5fsort_5fpairs_5ffn_11',['DEF_RADIX_SORT_PAIRS_FN',['../radix__sort__pairs_8cu.html#a4cf2c787c9111fdc77b98fcc9e690344',1,'DEF_RADIX_SORT_PAIRS_FN:&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#aca8b050260de3f4f24d6bb405cbbdd85',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, float):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#a8ff9c3ca029c1596694941f07c7b2dc4',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, double):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#a932f303789b405fceb31dd0f40f10d43',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, int64_t):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#ac3e8e7f0d44c6e7d4a5aea790dca2526',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, int32_t):&#160;radix_sort_pairs.cu']]],
+  ['default_5finfo_5fb_5fmask_12',['DEFAULT_INFO_B_MASK',['../split__embeddings__utils_8cuh.html#a312a32dcc1f3a4980ed4c458b8bab67f',1,'split_embeddings_utils.cuh']]],
+  ['default_5finfo_5fb_5fnum_5fbits_13',['DEFAULT_INFO_B_NUM_BITS',['../split__embeddings__utils_8cuh.html#ac9d136da765bb4871acd477da0f2c254',1,'split_embeddings_utils.cuh']]],
+  ['default_5finfo_5fnum_5fbits_14',['DEFAULT_INFO_NUM_BITS',['../split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd',1,'split_embeddings_utils.cuh']]],
+  ['defaultptrtraits_15',['DefaultPtrTraits',['../structfbgemm__gpu_1_1_default_ptr_traits.html',1,'fbgemm_gpu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_16',['dense_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a840483d38dd0ee3fe4b398ebee5bf3d7',1,'dense_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a840483d38dd0ee3fe4b398ebee5bf3d7',1,'dense_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5funweighted_5fmeta_17',['dense_embedding_codegen_forward_unweighted_meta',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9e6ce9ed24a999160137cd295420a9f',1,'gen_embedding_forward_dense_unweighted_codegen_meta.cpp']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_18',['dense_embedding_codegen_forward_weighted_cuda',['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a4e4e521f171d17c5d78bee2b3c9b21db',1,'dense_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a4e4e521f171d17c5d78bee2b3c9b21db',1,'dense_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5fweighted_5fmeta_19',['dense_embedding_codegen_forward_weighted_meta',['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#ac89d0c2dc36fc6053f0425a919711b3a',1,'gen_embedding_forward_dense_weighted_codegen_meta.cpp']]],
+  ['dense_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcuda_20',['dense_embedding_codegen_grad_indice_weights_cuda',['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#aa413d80f0ebbadd4375b29cfb27654b3',1,'dense_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aa413d80f0ebbadd4375b29cfb27654b3',1,'dense_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_21',['dense_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#aadd3974603c08fba6a7c21638a57e7f4',1,'dense_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aadd3974603c08fba6a7c21638a57e7f4',1,'dense_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fmeta_22',['dense_embedding_nobag_codegen_forward_unweighted_meta',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9b06d5bef944e3f22c1b7d5faf0cc73',1,'gen_embedding_forward_dense_unweighted_codegen_meta.cpp']]],
+  ['dense_5fsegment_5fvalue_5fdata_23',['dense_segment_value_data',['../namespacefbgemm__gpu.html#a2f93c0df9186a239cfd59505a464fc36',1,'fbgemm_gpu']]],
+  ['dense_5fto_5fjagged_24',['dense_to_jagged',['../group__jagged-tensor-ops-cpu.html#gae25fa8a028fc083f06e445e1d2ebb208',1,'fbgemm_gpu']]],
+  ['dense_5fto_5fjagged_5fforward_25',['dense_to_jagged_forward',['../namespacefbgemm__gpu.html#aa5a76157eb45b9bd4159a548e8a73ce6',1,'fbgemm_gpu']]],
+  ['dense_5fto_5fjagged_5fforward_2ecu_26',['dense_to_jagged_forward.cu',['../dense__to__jagged__forward_8cu.html',1,'']]],
+  ['dequantize_5fload_27',['dequantize_load',['../namespacefbgemm__gpu.html#aee340827dbc6c104a400c30f47f3ee3b',1,'fbgemm_gpu::dequantize_load(const src_t *value, const float2)'],['../namespacefbgemm__gpu.html#a74358134402be54c82696697fe766b9a',1,'fbgemm_gpu::dequantize_load(const uint8_t *value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aaed854f05a4542637ac342bfab57bdc7',1,'fbgemm_gpu::dequantize_load(const uint8_t *value, const float2 qparams)']]],
+  ['dequantize_5fpacked_5fhfp8_28',['dequantize_packed_hfp8',['../namespacefbgemm__gpu.html#a0c388276a962d14b3070dc55202eaf66',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint2_29',['dequantize_permuted_int2',['../namespacefbgemm__gpu.html#a96be7f5b4c81d93bf024348e7b85e364',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint4_30',['dequantize_permuted_int4',['../namespacefbgemm__gpu.html#a2cf47d59251a0840fd370a95fa371681',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint8_31',['dequantize_permuted_int8',['../namespacefbgemm__gpu.html#adec3504b0909c4380da3c0aac89055de',1,'fbgemm_gpu']]],
+  ['dev_5fweights_32',['dev_weights',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3',1,'dev_weights:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c',1,'dev_weights:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c',1,'dev_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a7ac7f1200f9cc67310a434e6da2bc8ae',1,'dev_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['device_33',['DEVICE',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194ae10b6ab6a278644ce40631f62f360b6d',1,'fbgemm_gpu']]],
+  ['device_5finline_34',['DEVICE_INLINE',['../fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d',1,'fbgemm_cuda_utils.cuh']]],
+  ['dim_5f_35',['dim_',['../structfbgemm__gpu_1_1_weight_row.html#a844805bf936642eb8849d76b506abf8d',1,'fbgemm_gpu::WeightRow']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcpu_36',['direct_mapped_lru_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#ac827cf6cd0f063a6747deaff14e4902d',1,'fbgemm_gpu']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_37',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'direct_mapped_lru_cache_populate_byte_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, at::Tensor lxu_cache_miss_timestamp, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate__byte_8cu.html#ab944b6f7e1df36b8ef0c4a911c1b0afb',1,'direct_mapped_lru_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, int64_t time_stamp, Tensor lru_state, Tensor lxu_cache_miss_timestamp, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lru_cache_populate_byte.cu']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcpu_38',['direct_mapped_lxu_cache_lookup_cpu',['../namespacefbgemm__gpu.html#a03949dd527b81758e43a4b48800c3bc6',1,'fbgemm_gpu']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_39',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'direct_mapped_lxu_cache_lookup_cuda(at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#a9a01f6df03e867e1871df306a6289e06',1,'direct_mapped_lxu_cache_lookup_cuda(Tensor linear_cache_indices, Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lxu_cache.cu']]],
+  ['dispatch_5fdense_5fto_5fjagged_5fcase_40',['DISPATCH_DENSE_TO_JAGGED_CASE',['../dense__to__jagged__forward_8cu.html#ab94a3e4679ece26e229ec76dc9733ca2',1,'dense_to_jagged_forward.cu']]],
+  ['dispatch_5femb_5fcache_5foutput_5ftypes_41',['DISPATCH_EMB_CACHE_OUTPUT_TYPES',['../dispatch__macros_8h.html#a8f06a63f75524d1985d76648b0fcf990',1,'dispatch_macros.h']]],
+  ['dispatch_5femb_5fcache_5ftypes_42',['DISPATCH_EMB_CACHE_TYPES',['../dispatch__macros_8h.html#ac4599e1c46b6eb357145dd791c6ae5c9',1,'dispatch_macros.h']]],
+  ['dispatch_5femb_5fgrad_5fcache_5ftypes_43',['DISPATCH_EMB_GRAD_CACHE_TYPES',['../dispatch__macros_8h.html#a10b99a9b7edecc89f4558ba0cf37c0ee',1,'dispatch_macros.h']]],
+  ['dispatch_5fkernel_5ffor_5fcache_5fcase_44',['DISPATCH_KERNEL_FOR_CACHE_CASE',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5fmacros_2eh_45',['dispatch_macros.h',['../dispatch__macros_8h.html',1,'']]],
+  ['dispatch_5foptimal_5fforward_5fkernel_46',['DISPATCH_OPTIMAL_FORWARD_KERNEL',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5foptimal_5fkernel_47',['DISPATCH_OPTIMAL_KERNEL',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;embedding_backward_split_template.cu'],['../embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;embedding_backward_split_template.cu']]],
+  ['dispatch_5foptimal_5fnobag_5fforward_5fkernel_48',['DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5foutput_5ftypes_49',['DISPATCH_OUTPUT_TYPES',['../dispatch__macros_8h.html#a91c270ea1cbf887747abbaf8883b7175',1,'dispatch_macros.h']]],
+  ['dispatch_5fto_5fall_50',['DISPATCH_TO_ALL',['../sparse__ops__utils_8h.html#ae80e8b33bdef7d2849eb3d516ff67d1b',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_51',['DISPATCH_TO_AUTOGRAD',['../sparse__ops__utils_8h.html#aab6390a9590ead03a896aae2b93a96ed',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_5fcuda_52',['DISPATCH_TO_AUTOGRAD_CUDA',['../sparse__ops__utils_8h.html#adb242971e11b66b1f8f58c361e44b8e7',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_5fmeta_53',['DISPATCH_TO_AUTOGRAD_META',['../sparse__ops__utils_8h.html#a8ed65710de63bd56275d2ceded5d59b4',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fcpu_54',['DISPATCH_TO_CPU',['../sparse__ops__utils_8h.html#af5cf39897136f04c6f2ac5f3544c49c3',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fcuda_55',['DISPATCH_TO_CUDA',['../sparse__ops__utils_8h.html#a06de50f3ede518ff59612c9ada5a85c8',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fmeta_56',['DISPATCH_TO_META',['../sparse__ops__utils_8h.html#aa751218a0e9119ad6fa4d6d4df63fda5',1,'sparse_ops_utils.h']]],
+  ['div_57',['div',['../structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da',1,'fbgemm_gpu::Vec4AccT']]],
+  ['div_58',['Div',['../classfbgemm__gpu_1_1_fixed_divisor.html#a74e5cb4569d6d48cbc0ee32674a7e374',1,'fbgemm_gpu::FixedDivisor']]],
+  ['div_5fround_5fup_59',['DIV_ROUND_UP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['div_5fround_5fup_60',['div_round_up',['../namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db',1,'nbit::div_round_up()'],['../namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef',1,'fbgemm_gpu::div_round_up()']]],
+  ['divmod_61',['DivMod',['../classfbgemm__gpu_1_1_fixed_divisor.html#abea2bdfe3649f1b944a15453e78ae523',1,'fbgemm_gpu::FixedDivisor::DivMod()'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329',1,'DivMod(global_warp_id, &amp;t, &amp;table_warp_id):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329',1,'DivMod(global_warp_id, &amp;t, &amp;table_warp_id):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#aef6bada16cf81832eb1e594eb47875d8',1,'fbgemm_gpu::DivMod()']]],
+  ['dll_5fpublic_62',['DLL_PUBLIC',['../ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d',1,'ops_utils.h']]],
+  ['do_5fwrite_63',['do_write',['../bench__utils_8cuh.html#af01122d304bbe0308fe6c59bebe33730',1,'bench_utils.cuh']]],
+  ['dummy_5fpacked_5faccessor32_64',['dummy_packed_accessor32',['../namespacefbgemm__gpu.html#a86a8cc18b54f6986ec4faeec0b223907',1,'fbgemm_gpu']]],
+  ['dummy_5fpacked_5faccessor64_65',['dummy_packed_accessor64',['../namespacefbgemm__gpu.html#aeb6f64d8ceb0189b03aa6808b97e8b16',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_5.js b/search/all_5.js
index cf90c2986..4f397c881 100644
--- a/search/all_5.js
+++ b/search/all_5.js
@@ -1,5 +1,67 @@
 var searchData=
 [
-  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_0',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
-  ['get_5funique_5findices_5fcuda_1',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]]
+  ['element_5fwise_5fmul_5f_0',['element_wise_mul_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::element_wise_mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::element_wise_mul_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae653589cf39f92811f8509363515532d',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::element_wise_mul_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::element_wise_mul_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae653589cf39f92811f8509363515532d',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::element_wise_mul_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a077873e0dd3516731c2302c7b3dee475',1,'fbgemm_gpu::Vec4T&lt; double &gt;::element_wise_mul_()']]],
+  ['else_1',['else',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0544c3fe466e421738dae463968b70ba',1,'else:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#a0544c3fe466e421738dae463968b70ba',1,'fbgemm_gpu::else']]],
+  ['embedding_20cpu_20operators_2',['Embedding CPU Operators',['../group__embedding-cpu.html',1,'']]],
+  ['embedding_20cuda_20operators_3',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]],
+  ['embedding_5fbackward_5fdense_5fhost_2ecpp_4',['embedding_backward_dense_host.cpp',['../embedding__backward__dense__host_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fdense_5fhost_5fcpu_2ecpp_5',['embedding_backward_dense_host_cpu.cpp',['../embedding__backward__dense__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fcpu_5fapprox_5ftemplate_2ecpp_6',['embedding_backward_split_cpu_approx_template.cpp',['../embedding__backward__split__cpu__approx__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fcpu_5ftemplate_2ecpp_7',['embedding_backward_split_cpu_template.cpp',['../embedding__backward__split__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fgrad_5ftemplate_2ecu_8',['embedding_backward_split_grad_template.cu',['../embedding__backward__split__grad__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fhost_5fcpu_5ftemplate_2ecpp_9',['embedding_backward_split_host_cpu_template.cpp',['../embedding__backward__split__host__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fhost_5ftemplate_2ecpp_10',['embedding_backward_split_host_template.cpp',['../embedding__backward__split__host__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5findice_5fweights_5ftemplate_2ecu_11',['embedding_backward_split_indice_weights_template.cu',['../embedding__backward__split__indice__weights__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fkernel_5fcta_5ftemplate_2ecu_12',['embedding_backward_split_kernel_cta_template.cu',['../embedding__backward__split__kernel__cta__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fkernel_5fwarp_5ftemplate_2ecu_13',['embedding_backward_split_kernel_warp_template.cu',['../embedding__backward__split__kernel__warp__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5ftemplate_2ecu_14',['embedding_backward_split_template.cu',['../embedding__backward__split__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5ftemplate_5fhelpers_2ecuh_15',['embedding_backward_template_helpers.cuh',['../embedding__backward__template__helpers_8cuh.html',1,'']]],
+  ['embedding_5fbag_5frowwise_5fprune_16',['embedding_bag_rowwise_prune',['../namespacefbgemm__gpu.html#ae586c9948dba8a67abf44ada58425fba',1,'fbgemm_gpu']]],
+  ['embedding_5fbounds_5fcheck_2ecu_17',['embedding_bounds_check.cu',['../embedding__bounds__check_8cu.html',1,'']]],
+  ['embedding_5fbounds_5fcheck_5fhost_2ecpp_18',['embedding_bounds_check_host.cpp',['../embedding__bounds__check__host_8cpp.html',1,'']]],
+  ['embedding_5fbounds_5fcheck_5fhost_5fcpu_2ecpp_19',['embedding_bounds_check_host_cpu.cpp',['../embedding__bounds__check__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fcommon_2eh_20',['embedding_common.h',['../embedding__common_8h.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fcpu_5ftemplate_2ecpp_21',['embedding_forward_quantized_cpu_template.cpp',['../embedding__forward__quantized__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fhost_2ecpp_22',['embedding_forward_quantized_host.cpp',['../embedding__forward__quantized__host_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fhost_5fcpu_2ecpp_23',['embedding_forward_quantized_host_cpu.cpp',['../embedding__forward__quantized__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5flookup_2ecu_24',['embedding_forward_quantized_split_lookup.cu',['../embedding__forward__quantized__split__lookup_8cu.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5ftemplate_2ecu_25',['embedding_forward_quantized_split_nbit_host_template.cu',['../embedding__forward__quantized__split__nbit__host__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5ftemplate_2ecu_26',['embedding_forward_quantized_split_nbit_kernel_template.cu',['../embedding__forward__quantized__split__nbit__kernel__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fcpu_2ecpp_27',['embedding_forward_split_cpu.cpp',['../embedding__forward__split__cpu_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fcpu_2eh_28',['embedding_forward_split_cpu.h',['../embedding__forward__split__cpu_8h.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5fnobag_5fsmall_5ftemplate_2ecu_29',['embedding_forward_split_kernel_nobag_small_template.cu',['../embedding__forward__split__kernel__nobag__small__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5ftemplate_2ecu_30',['embedding_forward_split_kernel_template.cu',['../embedding__forward__split__kernel__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5fv2_5ftemplate_2ecu_31',['embedding_forward_split_kernel_v2_template.cu',['../embedding__forward__split__kernel__v2__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fmeta_5ftemplate_2ecpp_32',['embedding_forward_split_meta_template.cpp',['../embedding__forward__split__meta__template_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5ftemplate_2ecu_33',['embedding_forward_split_template.cu',['../embedding__forward__split__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5ftemplate_5fhelpers_2ecuh_34',['embedding_forward_template_helpers.cuh',['../embedding__forward__template__helpers_8cuh.html',1,'']]],
+  ['embedding_5finplace_5fupdate_2ecu_35',['embedding_inplace_update.cu',['../embedding__inplace__update_8cu.html',1,'']]],
+  ['embedding_5finplace_5fupdate_2eh_36',['embedding_inplace_update.h',['../embedding__inplace__update_8h.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5fcpu_37',['embedding_inplace_update_cpu',['../namespacefbgemm__gpu.html#aaa1807fa25793e61743b75d27db063cc',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fcpu_2ecpp_38',['embedding_inplace_update_cpu.cpp',['../embedding__inplace__update__cpu_8cpp.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5fcpu_5fkernel_39',['embedding_inplace_update_cpu_kernel',['../namespacefbgemm__gpu.html#af3e9e1ce0f6340f233ef6ae8934454cf',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fcuda_40',['embedding_inplace_update_cuda',['../namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fgpu_2ecpp_41',['embedding_inplace_update_gpu.cpp',['../embedding__inplace__update__gpu_8cpp.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5ftest_2ecpp_42',['embedding_inplace_update_test.cpp',['../embedding__inplace__update__test_8cpp.html',1,'']]],
+  ['embedding_5fop_5fregistration_2eh_43',['embedding_op_registration.h',['../embedding__op__registration_8h.html',1,'']]],
+  ['embedding_5fops_5fplaceholder_2ecpp_44',['embedding_ops_placeholder.cpp',['../embedding__ops__placeholder_8cpp.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fdevice_5fkernel_5ftemplate_2ecuh_45',['embedding_optimizer_split_device_kernel_template.cuh',['../embedding__optimizer__split__device__kernel__template_8cuh.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fhost_5ftemplate_2ecpp_46',['embedding_optimizer_split_host_template.cpp',['../embedding__optimizer__split__host__template_8cpp.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fkernel_5ftemplate_2ecu_47',['embedding_optimizer_split_kernel_template.cu',['../embedding__optimizer__split__kernel__template_8cu.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5ftemplate_2ecu_48',['embedding_optimizer_split_template.cu',['../embedding__optimizer__split__template_8cu.html',1,'']]],
+  ['embeddingrocksdb_49',['EmbeddingRocksDB',['../classssd_1_1_embedding_rocks_d_b.html',1,'EmbeddingRocksDB'],['../classssd_1_1_embedding_rocks_d_b.html#a703b26ce10b84fa35ea496114f1ebbb5',1,'ssd::EmbeddingRocksDB::EmbeddingRocksDB()']]],
+  ['embeddings_20operators_20cpu_50',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['embeddings_20operators_20cuda_51',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['emulate_5fcache_5fmiss_52',['emulate_cache_miss',['../split__embeddings__cache__cuda_8cuh.html#a8f112d04838c2019df06ffbb84dbafba',1,'emulate_cache_miss(at::Tensor lxu_cache_locations, const int64_t enforced_misses_per_256, const bool gather_cache_stats, at::Tensor uvm_cache_stats):&#160;lru_cache_find.cu'],['../lru__cache__find_8cu.html#a8a80ce6ea3d62b9f22ac391767b34538',1,'emulate_cache_miss(Tensor lxu_cache_locations, const int64_t enforced_misses_per_256, const bool gather_cache_stats, Tensor uvm_cache_stats):&#160;lru_cache_find.cu']]],
+  ['enum_5fitem_53',['enum_item',['../namespacefbgemm__gpu.html#aef71de4120929d2410f5d766948f8eaf',1,'fbgemm_gpu']]],
+  ['enum_5fitems_54',['enum_items',['../namespacefbgemm__gpu.html#a5fdc84ce2202ea07eb2e865847bd8f34',1,'fbgemm_gpu']]],
+  ['enum_5fquery_55',['enum_query',['../classfbgemm__gpu_1_1enum__registration.html#a84cad106fb24ea59687f6708d197cc64',1,'fbgemm_gpu::enum_registration']]],
+  ['enum_5fregistration_56',['enum_registration',['../classfbgemm__gpu_1_1enum__registration.html',1,'enum_registration&lt; T &gt;'],['../classfbgemm__gpu_1_1enum__registration.html#afa13a8542c6dde450214a387cacf3a9b',1,'fbgemm_gpu::enum_registration::enum_registration()']]],
+  ['enum_5fresult_57',['enum_result',['../namespacefbgemm__gpu.html#adbdc3251cbd2e995dfa31ffdf2c2df8e',1,'fbgemm_gpu']]],
+  ['enum_5futils_2eh_58',['enum_utils.h',['../enum__utils_8h.html',1,'']]],
+  ['eps_59',['eps',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3af1a7fb1e7c77ec014031cd2e1d0837',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['evict_60',['evict',['../structfbgemm__gpu_1_1_weight_row.html#a64c9f91fe6b60f7294ce6bb363bdb234',1,'fbgemm_gpu::WeightRow']]],
+  ['exclusive_5fscan_5fptrs_5fcpu_61',['exclusive_scan_ptrs_cpu',['../namespacefbgemm__gpu.html#aa8eb0fcd765dc4580084f6d098604e0d',1,'fbgemm_gpu']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcpu_62',['expand_into_jagged_permute_cpu',['../namespacefbgemm__gpu.html#a02fab30a12d9d6ee6e6ae68bc8041481',1,'fbgemm_gpu']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcuda_63',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_6.js b/search/all_6.js
index 46cb13feb..baddf1d79 100644
--- a/search/all_6.js
+++ b/search/all_6.js
@@ -1,5 +1,74 @@
 var searchData=
 [
-  ['histogram_5fbinning_5fcalibration_5fcpu_0',['histogram_binning_calibration_cpu',['../group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca',1,'fbgemm_gpu']]],
-  ['host_5flxu_5fcache_5fslot_1',['host_lxu_cache_slot',['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu']]]
+  ['false_0',['false',['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__backward__split__grad_8cu.html#a05118d1db073d73fe80ee01b40791cf6',1,'false(const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; dev_or_uvm_unique_indices, const int info_B_num_bits):&#160;gen_embedding_backward_split_grad.cu'],['../namespacenbit.html#af9110ca4f61dbcc64cf0f8118cdc97f1',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a249c23ff8c01f39126136bc2539952fe',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a508c0bc5d94dee1c736f755730ca2beb',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a4c70aaadd08c9449d6cedae3e20ea68c',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a90040b4a20a116df4d0c66c160e6e764',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aab2d7afb4b654ce45cfc2748e78ac253',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a308832faa1970c724a5589233e352f17',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a04aec5313af7eaae824c4738345d4b6a',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a741f318d94db0cb3578afea1e4630cc9',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a7fd32cfedb1f12bb236748026afb62f0',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6798d1239a1e727f202aa623317a936c',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae6208ce34aaecc5de1eea88805352dda',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a0b028a0d4eab6f827b0747e791479111',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ab5d4641eabcd497e393236456c66f662',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a92aa5aa305b64d0be3324318e749f727',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a1628074b31c14dcc07fd3d859e9ddf89',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6502e80c3fcff2fd9816c54de76346c5',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a62b93a28ed713cca24870802bd016e03',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a59ea73f8b7947242291927c972ebf040',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a0525091bf8439436819eef72a5c45ca6',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae661502dfcff9025fb909b009a194e2f',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a4ef67d9b7b4ba3292ad30493c9daf596',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a3f1b79dd7ed41442b0dfb240f2ab0ec7',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a18e19fee6513187e93010f11a932f6de',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a311bf35bff79e995c3e6d7d2e6a69952',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8c5c41f01ea1d775126bc194e1e95ecc',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a16040890e0367b0669f51c05b4715ecd',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f19e545f5c45f11ee4c5898decb994c',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a54d26a841bc71bb0c9fdcb2f657d3058',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aaaa117179cc47a2a2fbdb86da6066081',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aff4f86de443efa79fda96f93b78b26d4',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0c3c6fbc30353d25b4ada5dba7ed9ad3',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a71b5f71e99a903571a45d1bfb5dd6537',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a678e19ebc31d391a2101878805cfec04',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5e71bf5354b291e99138e5b51a2c8987',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a39a233002f8c2aadb3206424d3cf33ed',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afb14ab09e129e59e6e323cc8ad114e0a',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac335cccca06f6bd0865b65bb20192a24',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a008e7d608ca15741939511b1f48878',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acb117339908a6826b75877db094f909d',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afbb29ff03c359916c050f25deac56e9e',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1695088ded9f86314e0bc374c4ad57f9',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af26c8601b994cb4ad7a7d08104ccc876',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab84745c1fc3e4c483778cc8dc325eb7f',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0b7156fcc5a6e05dd2ab1a0dd33f339d',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5acddab9f4eec4c91ba1403005c3ec7d',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79860db3c0c6c510a821d9ac0a4c6764',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7ccf30944601039563603d837470824c',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['fatal_1',['FATAL',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaa19da7170bea36556dde582519795f3fc',1,'fbgemm_gpu']]],
+  ['fbgemm_5fcuda_5futils_2ecuh_2',['fbgemm_cuda_utils.cuh',['../fbgemm__cuda__utils_8cuh.html',1,'']]],
+  ['fbgemm_5fdispatch_5ffloat_5fand_5fhalf_3',['FBGEMM_DISPATCH_FLOAT_AND_HALF',['../dispatch__macros_8h.html#a6db9b7506116844ae45993577c3b9ac4',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fand_5fhalf_5fcase_4',['FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE',['../dispatch__macros_8h.html#a60faa23c8d1bf9d75a2e598a5654ecff',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fhalf_5fand_5fbfloat16_5',['FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16',['../dispatch__macros_8h.html#ab9329efe2d7882cbc2bd358b6672c292',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fhalf_5fand_5fbfloat16_5fcase_6',['FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE',['../dispatch__macros_8h.html#a7c7e35b09a14b3d5b76339803712ce7e',1,'dispatch_macros.h']]],
+  ['fbgemm_5fgpu_7',['fbgemm_gpu',['../namespacefbgemm__gpu.html',1,'']]],
+  ['fbgemm_5fgpu_5fcub_5fns_5fprefix_8',['FBGEMM_GPU_CUB_NS_PREFIX',['../cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4',1,'cub_namespace_postfix.cuh']]],
+  ['fbgemm_5fgpu_5fenum_5fcreate_5ftag_9',['FBGEMM_GPU_ENUM_CREATE_TAG',['../enum__utils_8h.html#a769a65d91133d4f233bcf10280ff7a3c',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fglogal_10',['FBGEMM_GPU_ENUM_GLOGAL',['../enum__utils_8h.html#adc8e24189b6f5a58092ade0b27e197b1',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fitem_11',['FBGEMM_GPU_ENUM_ITEM',['../enum__utils_8h.html#aef8d28be61e5e22bac45bf59c53dabbd',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fop_12',['FBGEMM_GPU_ENUM_OP',['../enum__utils_8h.html#abcc6d46ce5e5452b5b49f96ae0aa67f3',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fregister_5fend_13',['FBGEMM_GPU_ENUM_REGISTER_END',['../enum__utils_8h.html#a1fc46fffc78f3820ce4668b6b2a92b55',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fregister_5fstart_14',['FBGEMM_GPU_ENUM_REGISTER_START',['../enum__utils_8h.html#a3c1089cc9b549d33d50c20c14b348950',1,'FBGEMM_GPU_ENUM_REGISTER_START:&#160;enum_utils.h'],['../namespacefbgemm__gpu.html#a0e41e402bfba1e346c6dcc610252e94b',1,'fbgemm_gpu::FBGEMM_GPU_ENUM_REGISTER_START()']]],
+  ['fbgemm_5fgpu_5fenum_5ftag_15',['FBGEMM_GPU_ENUM_TAG',['../enum__utils_8h.html#aae161db28429e0e2aa9001448f52e2f4',1,'enum_utils.h']]],
+  ['fbgemm_5fop_5fdispatch_16',['FBGEMM_OP_DISPATCH',['../ops__utils_8h.html#aed63a3f5bb9ae1c01f230bee2d95ea05',1,'FBGEMM_OP_DISPATCH:&#160;ops_utils.h'],['../batched__dense__vec__jagged__2d__mul__backward_8cu.html#a505e960fb46aaed90cbf00060c4f7f73',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul_backward&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul_backward):&#160;batched_dense_vec_jagged_2d_mul_backward.cu'],['../batched__dense__vec__jagged__2d__mul__forward_8cu.html#ae6d9314c75be8852a64432f06a618a51',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul_forward&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul_forward):&#160;batched_dense_vec_jagged_2d_mul_forward.cu'],['../dense__to__jagged__forward_8cu.html#a2f09e89f2172cc358cfffdc866220276',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;dense_to_jagged_forward&quot;, fbgemm_gpu::dense_to_jagged_forward):&#160;dense_to_jagged_forward.cu'],['../jagged__dense__bmm__forward_8cu.html#a10db24b3c6258b287f12eb591b6b1274',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_bmm_forward&quot;, fbgemm_gpu::jagged_dense_bmm_forward_cuda):&#160;jagged_dense_bmm_forward.cu'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#a4dc38a80ec480c8ba5e73920df40ade3',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_dense_elementwise_add_jagged_output_forward&quot;, fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output_forward):&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#a56064ede1846b15cd7ee664d3ac0f447',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul_backward&quot;, fbgemm_gpu::jagged_dense_elementwise_mul_backward):&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__dense__elementwise__mul__forward_8cu.html#a55ae1a4e6489decd594fc7c77fb36cd4',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul_forward&quot;, fbgemm_gpu::jagged_dense_elementwise_mul_forward):&#160;jagged_dense_elementwise_mul_forward.cu'],['../jagged__index__add__2d__forward_8cu.html#a6fbf3dbceb513f8dfa17d68303b4e1f1',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_index_add_2d_forward&quot;, fbgemm_gpu::jagged_index_add_2d_forward_cuda):&#160;jagged_index_add_2d_forward.cu'],['../jagged__index__select__2d__forward_8cu.html#a769ab9425e6b9229e5197a606072f7f7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_index_select_2d_forward&quot;, fbgemm_gpu::jagged_index_select_2d_forward_cuda):&#160;jagged_index_select_2d_forward.cu'],['../jagged__jagged__bmm__forward_8cu.html#ad970c4b273bd75194ccced952b277f40',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_jagged_bmm_forward&quot;, fbgemm_gpu::jagged_jagged_bmm_forward_cuda):&#160;jagged_jagged_bmm_forward.cu'],['../jagged__softmax__backward_8cu.html#af86af3150ade27ed65bffd51e7fd389a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax_backward&quot;, fbgemm_gpu::jagged_softmax_backward_cuda):&#160;jagged_softmax_backward.cu'],['../jagged__softmax__forward_8cu.html#ad64b64d7d37e8e47389d74bbb5b9287f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax_forward&quot;, fbgemm_gpu::jagged_softmax_forward_cuda):&#160;jagged_softmax_forward.cu'],['../jagged__tensor__ops_8cu.html#ae9145e7dc8cdcfab08478c78e11806ee',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;dense_to_jagged&quot;, fbgemm_gpu::dense_to_jagged):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#af36ae71857641f82f406e9d03287e165',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense&quot;, fbgemm_gpu::jagged_to_padded_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a63e1ce09a4f40dd4f79b7ceb985b2faf',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_add&quot;, fbgemm_gpu::jagged_dense_elementwise_add):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a4f366150fd0ce1400047ea614232e9f8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_dense_elementwise_add_jagged_output&quot;, fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#afd6b82766bc27ff6c2e957e57ec2947e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul&quot;, fbgemm_gpu::jagged_dense_elementwise_mul):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a83e06ed43d316e587c86bd1b83a233a8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a5a65d954fda4f3313d036b22b3232872',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_1d_to_dense&quot;, fbgemm_gpu::jagged_1d_to_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a84c5e68f36966340db42aa25785290df',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_2d_to_dense&quot;, fbgemm_gpu::jagged_2d_to_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a6b3f90be325532b25c5df0c87c15e083',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax&quot;, fbgemm_gpu::jagged_softmax):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a56fea1ad733f259a42c89661e1bf2637',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_jagged_bmm&quot;, fbgemm_gpu::jagged_jagged_bmm):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a48e6bd6975582a7ce4ceff6712fa6ef9',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_bmm&quot;, fbgemm_gpu::jagged_dense_bmm):&#160;jagged_tensor_ops.cu'],['../jagged__to__padded__dense__backward_8cu.html#a0ec346f5fe59608b8e13809432c9a389',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense_backward&quot;, fbgemm_gpu::jagged_to_padded_dense_backward):&#160;jagged_to_padded_dense_backward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a1526839450b4cbf68a2d6a70673e273a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense_forward&quot;, fbgemm_gpu::jagged_to_padded_dense_forward):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a9797a098549c8193d6beb70cb5d7da4f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_1d_to_dense&quot;, fbgemm_gpu::stacked_jagged_1d_to_dense_gpu):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a84d4e43e8339a03b14fe872dd3b2d50a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_gpu):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a61110a1a4f03edaa3322b245624b294e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense_forward&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_forward_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a1a53264bb9ade4d2796b87a966ab450c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense_backward&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_backward_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a65d732670fec1bee849caf445b2903e7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_add_jagged_output&quot;, fbgemm_gpu::jagged_dense_elementwise_add_jagged_output_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__unique__indices_8cu.html#a674314745cbd8dd913142d0660083851',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_unique_indices&quot;, fbgemm_gpu::jagged_unique_indices_cuda):&#160;jagged_unique_indices.cu'],['../jagged__unique__indices_8cu.html#aaf228a3ce26c3ae9c749573883b59be5',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_hash_size_cumsum&quot;, fbgemm_gpu::jagged_hash_size_cumsum_cuda):&#160;jagged_unique_indices.cu'],['../keyed__jagged__index__select__dim1_8cu.html#a69db0b3f600c7c45db29069cd05d3bea',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;keyed_jagged_index_select_dim1&quot;, fbgemm_gpu::keyed_jagged_index_select_dim_1_gpu):&#160;keyed_jagged_index_select_dim1.cu'],['../merge__pooled__embedding__ops__cpu_8cpp.html#a1ec90ab98c9d6c18099549dce392fd65',1,'FBGEMM_OP_DISPATCH(CPU, &quot;merge_pooled_embeddings&quot;, fbgemm_gpu::merge_pooled_embeddings_cpu):&#160;merge_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a37755fb9333b1017d34b49ee0247004e',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_pooled_embs&quot;, fbgemm_gpu::permute_pooled_embs_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a83bf468fc58e605fc64461726caad8cf',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a765ed01147edbd93b01e5f91fe12f68b',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_duplicate_pooled_embs&quot;, fbgemm_gpu::permute_duplicate_pooled_embs_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#aa0ac9a165fb46ae5738c08e0a887a97b',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_duplicate_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_duplicate_pooled_embs_auto_grad_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a941e973d6b74e10046ae3373ba10bda2',1,'FBGEMM_OP_DISPATCH(Meta, &quot;permute_pooled_embs&quot;, fbgemm_gpu::permute_pooled_embs_meta):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a7590e07b38befcd57df567cb054cfad3',1,'FBGEMM_OP_DISPATCH(Meta, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad_meta):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a858ecafbed2f155f42fe99391b82e4b4',1,'FBGEMM_OP_DISPATCH(Autograd, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../quantize__bfloat16_8cu.html#a44eca6a446116eaa006c5bd0488d62f2',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Bfloat16QuantizedToFloat&quot;, fbgemm_gpu::_bfloat16_to_float_gpu):&#160;quantize_bfloat16.cu'],['../quantize__bfloat16_8cu.html#a4ed2eb1cae3301906c55dc98ee5ce687',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToBfloat16Quantized&quot;, fbgemm_gpu::_float_to_bfloat16_gpu):&#160;quantize_bfloat16.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a360b78a6e199bcda032c8896708398db',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_float_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#afed513cf23a1957fa7f44309ed54288e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HalfToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_half_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#af35eb9fa075d341e379886496b6f2dad',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatOrHalfToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_single_or_half_precision_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#ac2c5ae3ba26c4c71b5e42651752f6e05',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloat&quot;, fbgemm_gpu::_fused8bitrowwise_to_float_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a5ed3f01bedfeee57b88e3343ebab204a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToHalf&quot;, fbgemm_gpu::_fused8bitrowwise_to_half_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#ac5c42d23d15559e0fab4a67b274ac722',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloatOrHalf&quot;, fbgemm_gpu::_fused8bitrowwise_to_single_or_half_precision_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a36f61e129797f0efa0fa02acd3bf1628',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloatMixedDim&quot;, fbgemm_gpu::_fused8bitrowwise_to_float_mixed_dim_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#ac0d21a1093187621384e9f7ee12af6f5',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_float_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#acc803cc30f01a51dcba4d3e89471a836',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HalfToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_half_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#a9235db627f7b35c43f5a8baee9c6e73f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_float_or_half_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#a04df767b706b47ca163b528c0ec49659',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToFloat&quot;, fbgemm_gpu::_fusednbitrowwise_to_float_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#ae8e33c20c4bfee06ceac1b42b87d40e0',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToHalf&quot;, fbgemm_gpu::_fusednbitrowwise_to_half_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#af782044b726c577b026de55ab1e37681',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf&quot;, fbgemm_gpu::_fusednbitrowwise_to_float_or_half_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__hfp8_8cu.html#a38d08a293e27467dfdda3bb72ea27596',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToHFP8Quantized&quot;, fbgemm_gpu::_float_to_hfp8_gpu):&#160;quantize_hfp8.cu'],['../quantize__hfp8_8cu.html#a137d7c9cbf1612b410dd45b3bbebbea0',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HFP8QuantizedToFloat&quot;, fbgemm_gpu::_hfp8_to_float_gpu):&#160;quantize_hfp8.cu'],['../quantize__msfp_8cu.html#abba68956be833439bf5ecabfe3880300',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToMSFPQuantized&quot;, fbgemm_gpu::_float_to_msfp_gpu):&#160;quantize_msfp.cu'],['../quantize__msfp_8cu.html#ace6d6f85efbdd32b7378b07a2e394166',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;MSFPQuantizedToFloat&quot;, fbgemm_gpu::_msfp_to_float_gpu):&#160;quantize_msfp.cu'],['../quantize__ops__gpu_8cpp.html#a0d298145c58d3db95b0838ab9e321626',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFP8RowwiseQuantized&quot;, fbgemm_gpu::_float_to_FP8rowwise_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a0ae0af8cb484307360d889119a25a870',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FP8RowwiseQuantizedToFloat&quot;, fbgemm_gpu::_FP8rowwise_to_float_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a6f70026edd736cca0ec96d6369571e06',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToPaddedFP8RowwiseQuantized&quot;, fbgemm_gpu::_float_to_paddedFP8rowwise_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a18e52d6b9f96ae0c9f7552f54808d958',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;PaddedFP8RowwiseQuantizedToFloat&quot;, fbgemm_gpu::_paddedFP8rowwise_to_float_gpu):&#160;quantize_ops_gpu.cpp'],['../sparse__async__cumsum_8cu.html#a37ee97bf0cf5f3e51b626963d0905d5d',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_exclusive_cumsum&quot;, fbgemm_gpu::asynchronous_exclusive_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__async__cumsum_8cu.html#a956fe5a496592a618c66c5cdd7e76aee',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_complete_cumsum&quot;, fbgemm_gpu::asynchronous_complete_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__async__cumsum_8cu.html#a1fe1796f45f950ba568e1f5fb38d3da8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_inclusive_cumsum&quot;, fbgemm_gpu::asynchronous_inclusive_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__block__bucketize__features_8cu.html#ac393348a81fe14a2734e4a221b3e028c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;block_bucketize_sparse_features&quot;, fbgemm_gpu::block_bucketize_sparse_features_cuda):&#160;sparse_block_bucketize_features.cu'],['../sparse__bucketize__features_8cu.html#a9f5c60b5d418eded60f0c447ae38c450',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;bucketize_sparse_features&quot;, fbgemm_gpu::bucketize_sparse_features_cuda):&#160;sparse_bucketize_features.cu'],['../sparse__expand__into__jagged__permute_8cu.html#af4f7b3da9350e95957c452753c2569a7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;expand_into_jagged_permute&quot;, fbgemm_gpu::expand_into_jagged_permute_cuda):&#160;sparse_expand_into_jagged_permute.cu'],['../sparse__invert__permute_8cu.html#a472cc598c3ed7832c2866f8aaed5fdc8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;invert_permute&quot;, fbgemm_gpu::invert_permute_cuda):&#160;sparse_invert_permute.cu'],['../sparse__permute102_8cu.html#aa5a7770ccd8e2e72012a3035579d2cfc',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute102_baddbmm_permute102&quot;, fbgemm_gpu::permute102_baddbmm_permute102_cuda):&#160;sparse_permute102.cu'],['../sparse__permute__1d_8cu.html#aa28c2751b385fa3416aa12a3dd2cb039',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_1D_sparse_data&quot;, fbgemm_gpu::permute_1D_sparse_data_cuda):&#160;sparse_permute_1d.cu'],['../sparse__permute__2d_8cu.html#ab884888820b4be2c942de1bf75211b2b',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sparse_data&quot;, fbgemm_gpu::permute_2D_sparse_data_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__2d_8cu.html#aab7fc0ba2b46743531f3d2fe4392be84',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_2D_sparse_data&quot;, fbgemm_gpu::permute_2D_sparse_data_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__2d_8cu.html#a16728339b915be3a73e7bced8598849f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sparse_features&quot;, fbgemm_gpu::permute_sparse_features_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__embeddings_8cu.html#a2281b30913187261c5233174f3f9622c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sequence_embeddings&quot;, fbgemm_gpu::permute_sequence_embeddings_cuda):&#160;sparse_permute_embeddings.cu'],['../sparse__range_8cu.html#a85fc3de0cb5d8acd0c760b984ff30f3b',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;offsets_range&quot;, fbgemm_gpu::offsets_range_cuda):&#160;sparse_range.cu'],['../sparse__range_8cu.html#a7a62f9a9f0e7b39a3331e3cee8be776e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;lengths_range&quot;, fbgemm_gpu::lengths_range_cuda):&#160;sparse_range.cu'],['../sparse__segment__sum__csr_8cu.html#ae64cf20351791f453c8f3156ed01c224',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;segment_sum_csr&quot;, fbgemm_gpu::segment_sum_csr_cuda):&#160;sparse_segment_sum_csr.cu']]],
+  ['fbgemm_5ftensor_5faccessor_2eh_17',['fbgemm_tensor_accessor.h',['../fbgemm__tensor__accessor_8h.html',1,'']]],
+  ['fd_5fb_18',['fd_B',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a2d1eb541d5bdde0bf935a46f15efb9f4',1,'fd_B:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a488a7f217a1d4705fbcdce81e0a028b2',1,'fd_B:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a6b3d6f3af7d65ed111be48db11a4cc24',1,'fd_B:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu']]],
+  ['fd_5fnum_5fwarps_5fper_5flist_19',['fd_num_warps_per_list',['../namespacefbgemm__gpu.html#a8d2f3cd432a3bf2de49086fb33ef71cb',1,'fbgemm_gpu']]],
+  ['fd_5fnum_5fwarps_5fper_5ftable_20',['fd_num_warps_per_table',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['fint32_21',['fint32',['../namespacefbgemm__gpu.html#a4783bbd9753251a335f9f8fa2dd97c8c',1,'fbgemm_gpu']]],
+  ['fixed_5fl_5fper_5fwarp_22',['fixed_L_per_warp',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acac1f3391492ec3c4a8942ec48197027',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['fixeddivisor_23',['FixedDivisor',['../classfbgemm__gpu_1_1_fixed_divisor.html',1,'FixedDivisor'],['../classfbgemm__gpu_1_1_fixed_divisor.html#a80d1fd876167b0bbb2d6a7ebdaa97270',1,'fbgemm_gpu::FixedDivisor::FixedDivisor()']]],
+  ['float_24',['float',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'nbit::float'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['float16_5fmax_25',['float16_max',['../namespacefbgemm__gpu.html#acb046dd929c4c4190894087e0952b6ad',1,'fbgemm_gpu']]],
+  ['float16_5fmin_26',['float16_min',['../namespacefbgemm__gpu.html#aab696723995ed599860851113bfdae05',1,'fbgemm_gpu']]],
+  ['float1_5fmax_27',['float1_max',['../namespacefbgemm__gpu.html#a245cd4874d44db0533c14f1e5da13b0d',1,'fbgemm_gpu']]],
+  ['float1_5fmin_28',['float1_min',['../namespacefbgemm__gpu.html#a3ec9af370f9f9997a31175d653701b82',1,'fbgemm_gpu']]],
+  ['float2_5fmax_29',['float2_max',['../namespacefbgemm__gpu.html#a75186b0bdaba58d01566eec48d2f6602',1,'fbgemm_gpu']]],
+  ['float2_5fmin_30',['float2_min',['../namespacefbgemm__gpu.html#aa0397156c968ae38da1e433bfd50d3a3',1,'fbgemm_gpu']]],
+  ['float4_5fmax_31',['float4_max',['../namespacefbgemm__gpu.html#a7aaeb2b2ad68d85c51fb2b8697c70cc4',1,'fbgemm_gpu']]],
+  ['float4_5fmin_32',['float4_min',['../namespacefbgemm__gpu.html#adf07e886eabd113338425ed288c06a7b',1,'fbgemm_gpu']]],
+  ['float8_5fmax_33',['float8_max',['../namespacefbgemm__gpu.html#aa292f064d1126228ac0d10457722616c',1,'fbgemm_gpu']]],
+  ['float8_5fmin_34',['float8_min',['../namespacefbgemm__gpu.html#abca50cf5035e82d7992586eac7b744cf',1,'fbgemm_gpu']]],
+  ['float_5for_5fhalf_5fto_5ffused8bitrowwise_5fcpu_35',['float_or_half_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#ga06b7d2bf3fadaa9869555a64a6752ef7',1,'fbgemm_gpu']]],
+  ['float_5for_5fhalf_5fto_5ffusednbitrowwise_5fcpu_36',['float_or_half_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#ae983a889f16302029fcc4e5fcd5ce34f',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffp8rowwise_5fcpu_37',['float_to_FP8rowwise_cpu',['../group__quantize-data-cpu.html#gad540dd7f8ad7601b3d9591114e4ef718',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffused8bitrowwise_5fcpu_38',['float_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#gacf598456fd7aced63b96e8a725f4c418',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffusednbitrowwise_5fcpu_39',['float_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a9330d767d66b257d1ffa28c67775b38e',1,'fbgemm_gpu']]],
+  ['float_5fto_5fhfp8_40',['float_to_hfp8',['../namespacefbgemm__gpu.html#a9710845f2dffae8b40b17d49c169976b',1,'fbgemm_gpu']]],
+  ['float_5fto_5fsto_5fhalf_5fassemblefloat_41',['float_to_sto_half_assemblefloat',['../verify__fp16__stochastic__benchmark_8cu.html#afb0f683c8db4e3b5d5fd504735c60b25',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fbitcarry_42',['float_to_sto_half_bitcarry',['../verify__fp16__stochastic__benchmark_8cu.html#a0fa16f5c4aa1d84c03f25daeb10e9422',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fdirect_43',['float_to_sto_half_direct',['../verify__fp16__stochastic__benchmark_8cu.html#af0a4d95d246fb468f1b26eace73794f3',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fshortrand_44',['float_to_sto_half_shortrand',['../verify__fp16__stochastic__benchmark_8cu.html#aecab575916373f334a644238b6e02cf2',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['floattobfloat16quantized_5fref_45',['FloatToBFloat16Quantized_ref',['../namespacefbgemm__gpu.html#a46f430eb3d28bcd3fed6fbc61dec3bda',1,'fbgemm_gpu']]],
+  ['floattofp8quantized_5fref_46',['FloatToFP8Quantized_ref',['../group__quantize-data-cpu.html#gad14f49d191c7960681206b7103d781c4',1,'fbgemm_gpu']]],
+  ['floattofp8rowwisequantized_5fmeta_47',['FloatToFP8RowwiseQuantized_meta',['../namespacefbgemm__gpu.html#a5a525ef518134e136f23ab964d45dc23',1,'fbgemm_gpu']]],
+  ['flush_48',['flush',['../classssd_1_1_embedding_rocks_d_b.html#adac116554b543b7c4228c018a85882f5',1,'ssd::EmbeddingRocksDB']]],
+  ['flush_5fcache_49',['flush_cache',['../verify__fp16__stochastic__benchmark_8cu.html#a65d8faf79602cb52dbf1c3dc90db0cbd',1,'flush_cache(std::vector&lt; char &gt; flush, char *d_flush, char *d_flush2, int cache_size, bool do_write=false):&#160;verify_fp16_stochastic_benchmark.cu'],['../bench__utils_8cuh.html#a7fcbe2b8cc9b7676bb24b328fd41dc3a',1,'flush_cache(int cache_size_mb=40, bool do_write=false):&#160;bench_utils.cuh']]],
+  ['flush_5fgpu_50',['flush_gpu',['../verify__fp16__stochastic__benchmark_8cu.html#ab211bd95de3d67a08c95c5d7f070dfcb',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['flush_5fif_5fnecessary_51',['flush_if_necessary',['../classssd_1_1_embedding_rocks_d_b.html#a5e5bb9c575c52445a77bd0c39afc50bb',1,'ssd::EmbeddingRocksDB']]],
+  ['fma_52',['fma',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ad5c1e8194ecc27d73fb5477bc6795df8',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af82504393e0e09a157a40980598f626b',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad3b821b9b1862e7970a798dcc105dce8',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d',1,'fbgemm_gpu::Vec4AccT::fma(const float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c',1,'fbgemm_gpu::Vec4AccT::fma(const float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663',1,'fbgemm_gpu::Vec4AccT::fma(const uint8_t *ptr, const float weight)'],['../embedding__forward__split__kernel__v2__template_8cu.html#a2a539cccb1f62bb145cef234b6608c7f',1,'fma():&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['fma_5f_53',['fma_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; float &gt;::fma_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5914148b281516a23c9786a11d6675ad',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::fma_(const Vec4T&lt; at::Half &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::fma_(const Vec4T&lt; float &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5914148b281516a23c9786a11d6675ad',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::fma_(const Vec4T&lt; at::Half &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::fma_(const Vec4T&lt; float &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a935586b35f2e7d90ec234784a8a5d2b8',1,'fbgemm_gpu::Vec4T&lt; double &gt;::fma_()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42',1,'fbgemm_gpu::Vec4AccT::fma_(const float *vals, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42',1,'fbgemm_gpu::Vec4AccT::fma_(const half *vals, const float weight)']]],
+  ['for_54',['for',['../namespacefbgemm__gpu.html#af2287d510f303567f2d28d743aa716b6',1,'fbgemm_gpu']]],
+  ['forward_55',['forward',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html#a278e4d6a68c0e694370831a0d04a2918',1,'fbgemm_gpu::PermutePooledEmbsFunction::forward()'],['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#a83e4292464a5708945ca80a1f2171a27',1,'fbgemm_gpu::PermutePooledEmbsFunctionSplit::forward()']]],
+  ['fp_56',['FP',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a4ebada6a2af2bcba53ded1d7b414f081',1,'fbgemm_gpu']]],
+  ['fp16_57',['FP16',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaa4bf99d6945c25077fd6660d536af8a0',1,'fbgemm_gpu']]],
+  ['fp32_58',['FP32',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea693aa0bef84c25fe81c7e62e72f9313d',1,'fbgemm_gpu']]],
+  ['fp8_59',['FP8',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eae32efd813b88548940f8718a61864cf5',1,'fbgemm_gpu']]],
+  ['fp8quantizedtofloat_5fref_60',['FP8QuantizedToFloat_ref',['../group__quantize-data-cpu.html#ga4c49e527f364bfa224ed34f4fe9f13e7',1,'fbgemm_gpu']]],
+  ['fp8rowwise_5fto_5ffloat_5fcpu_61',['FP8rowwise_to_float_cpu',['../group__quantize-data-cpu.html#ga1d3b2f7c37e8755516ff8a4c504017e1',1,'fbgemm_gpu']]],
+  ['fp8rowwise_5fto_5ffloat_5fmeta_62',['FP8rowwise_to_float_meta',['../namespacefbgemm__gpu.html#ae7fdacc8f9e0ec9e1ede8102876ab537',1,'fbgemm_gpu']]],
+  ['func_5fname_5f_63',['func_name_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498',1,'fbgemm_gpu::TensorAccessorBase::func_name_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::func_name_']]],
+  ['fused8bitrowwise_5fto_5ffloat_5fcpu_64',['fused8bitrowwise_to_float_cpu',['../group__quantize-data-cpu.html#gab86a824fed15fab1c318359d069a5180',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5ffloat_5for_5fhalf_5fcpu_65',['fused8bitrowwise_to_float_or_half_cpu',['../group__quantize-data-cpu.html#gad219617d0aa308f97fad8dfc6af20213',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5fhalf_5fcpu_66',['fused8bitrowwise_to_half_cpu',['../group__quantize-data-cpu.html#ga9284d774f5d4087da98453e96e64d00a',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5fhalf_5fcpu_5fout_67',['fused8bitrowwise_to_half_cpu_out',['../namespacefbgemm__gpu.html#a389ed2b83ea0f408fe19fbb46770c610',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5ffloat_5fcpu_68',['fusednbitrowwise_to_float_cpu',['../group__quantize-data-cpu.html#ga61c494baf4e410652ed897534d14aa29',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5ffloat_5for_5fhalf_5fcpu_69',['fusednbitrowwise_to_float_or_half_cpu',['../group__quantize-data-cpu.html#ga5bd66d69876ef2493a6ebb4346c31bb9',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5fhalf_5fcpu_70',['fusednbitrowwise_to_half_cpu',['../group__quantize-data-cpu.html#ga1c32bf52a02928dbc573b4ac67065788',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_7.js b/search/all_7.js
index e0908b210..1a1bf0ef6 100644
--- a/search/all_7.js
+++ b/search/all_7.js
@@ -1,6 +1,301 @@
 var searchData=
 [
-  ['input_20operators_0',['Combine Input Operators',['../group__input-combine.html',1,'']]],
-  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_1',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
-  ['is_5fuvm_5ftensor_2',['is_uvm_tensor',['../group__cumem-utils.html#ga0b9f28b07d3796a732b1fb73b8e10e7e',1,'fbgemm_gpu']]]
+  ['gauss_0',['gauss',['../structfbgemm__gpu_1_1rk__state.html#a84e948a0aa303456e29ddecfac6a1e46',1,'fbgemm_gpu::rk_state']]],
+  ['gen_5f8bit_5frandom_1',['gen_8bit_random',['../verify__fp16__stochastic__benchmark_8cu.html#aa292d49c7c13666d79ff4c646b5284f0',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fcodegen_5fcuda_2ecu_2',['gen_batch_index_select_dim0_backward_codegen_cuda.cu',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fkernel_5fcta_2ecu_3',['gen_batch_index_select_dim0_backward_kernel_cta.cu',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fkernel_5fwarp_2ecu_4',['gen_batch_index_select_dim0_backward_kernel_warp.cu',['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fcodegen_5fcuda_2ecu_5',['gen_batch_index_select_dim0_forward_codegen_cuda.cu',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fkernel_2ecu_6',['gen_batch_index_select_dim0_forward_kernel.cu',['../gen__batch__index__select__dim0__forward__kernel_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fkernel_5fsmall_2ecu_7',['gen_batch_index_select_dim0_forward_kernel_small.cu',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html',1,'']]],
+  ['gen_5fdata_8',['gen_data',['../verify__fp16__stochastic__benchmark_8cu.html#ab5c51c16cea74c9decd6a2c957b515d9',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fcpu_2ecpp_9',['gen_embedding_backward_adagrad_split_cpu.cpp',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_10',['gen_embedding_backward_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_11',['gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_12',['gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_13',['gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_14',['gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_15',['gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_16',['gen_embedding_backward_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_17',['gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_18',['gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fcuda_2ecu_19',['gen_embedding_backward_adam_split_unweighted_cuda.cu',['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fkernel_5fcta_2ecu_20',['gen_embedding_backward_adam_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_21',['gen_embedding_backward_adam_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_22',['gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_23',['gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_24',['gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fcuda_2ecu_25',['gen_embedding_backward_adam_split_weighted_cuda.cu',['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fkernel_5fcta_2ecu_26',['gen_embedding_backward_adam_split_weighted_kernel_cta.cu',['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_27',['gen_embedding_backward_adam_split_weighted_kernel_warp.cu',['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fcuda_2ecu_28',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fcta_2ecu_29',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_30',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_31',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_32',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_33',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fcuda_2ecu_34',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fcta_2ecu_35',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_36',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5findice_5fweights_5fcodegen_5fcuda_2ecu_37',['gen_embedding_backward_dense_indice_weights_codegen_cuda.cu',['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fcpu_2ecpp_38',['gen_embedding_backward_dense_split_cpu.cpp',['../gen__embedding__backward__dense__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fcuda_2ecu_39',['gen_embedding_backward_dense_split_unweighted_cuda.cu',['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fkernel_5fcta_2ecu_40',['gen_embedding_backward_dense_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_41',['gen_embedding_backward_dense_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_42',['gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_43',['gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_44',['gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fcuda_2ecu_45',['gen_embedding_backward_dense_split_weighted_cuda.cu',['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fkernel_5fcta_2ecu_46',['gen_embedding_backward_dense_split_weighted_kernel_cta.cu',['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_47',['gen_embedding_backward_dense_split_weighted_kernel_warp.cu',['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fcuda_2ecu_48',['gen_embedding_backward_lamb_split_unweighted_cuda.cu',['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fkernel_5fcta_2ecu_49',['gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_50',['gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_51',['gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_52',['gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_53',['gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fcuda_2ecu_54',['gen_embedding_backward_lamb_split_weighted_cuda.cu',['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fkernel_5fcta_2ecu_55',['gen_embedding_backward_lamb_split_weighted_kernel_cta.cu',['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_56',['gen_embedding_backward_lamb_split_weighted_kernel_warp.cu',['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fcuda_2ecu_57',['gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fkernel_5fcta_2ecu_58',['gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_59',['gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_60',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_61',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_62',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fcuda_2ecu_63',['gen_embedding_backward_lars_sgd_split_weighted_cuda.cu',['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fkernel_5fcta_2ecu_64',['gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_65',['gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fcuda_2ecu_66',['gen_embedding_backward_none_split_unweighted_cuda.cu',['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fkernel_5fcta_2ecu_67',['gen_embedding_backward_none_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_68',['gen_embedding_backward_none_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_69',['gen_embedding_backward_none_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_70',['gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_71',['gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fcuda_2ecu_72',['gen_embedding_backward_none_split_weighted_cuda.cu',['../gen__embedding__backward__none__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fkernel_5fcta_2ecu_73',['gen_embedding_backward_none_split_weighted_kernel_cta.cu',['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_74',['gen_embedding_backward_none_split_weighted_kernel_warp.cu',['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fcuda_2ecu_75',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fkernel_5fcta_2ecu_76',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_77',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_78',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_79',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_80',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fcuda_2ecu_81',['gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fkernel_5fcta_2ecu_82',['gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_83',['gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fcuda_2ecu_84',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fkernel_5fcta_2ecu_85',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_86',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_87',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_88',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_89',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fcuda_2ecu_90',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fkernel_5fcta_2ecu_91',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_92',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fcpu_2ecpp_93',['gen_embedding_backward_rowwise_adagrad_split_cpu.cpp',['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_94',['gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_95',['gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_96',['gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_97',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_98',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_99',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fcuda_2ecu_100',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fkernel_5fcta_2ecu_101',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fkernel_5fwarp_2ecu_102',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_103',['gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_104',['gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_105',['gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fcuda_2ecu_106',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fkernel_5fcta_2ecu_107',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fkernel_5fwarp_2ecu_108',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fcpu_2ecpp_109',['gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fcuda_2ecu_110',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fkernel_5fcta_2ecu_111',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_112',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_113',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_114',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_115',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fcuda_2ecu_116',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fkernel_5fcta_2ecu_117',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_118',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fcuda_2ecu_119',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fcta_2ecu_120',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_121',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_122',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_123',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_124',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fcuda_2ecu_125',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fcta_2ecu_126',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_127',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fcpu_2ecpp_128',['gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp',['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_129',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_130',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_131',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_132',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_133',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_134',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_135',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_136',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_137',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fcpu_2ecpp_138',['gen_embedding_backward_sgd_split_cpu.cpp',['../gen__embedding__backward__sgd__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fcuda_2ecu_139',['gen_embedding_backward_sgd_split_unweighted_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fkernel_5fcta_2ecu_140',['gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_141',['gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_142',['gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_143',['gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_144',['gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fcuda_2ecu_145',['gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fkernel_5fcta_2ecu_146',['gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fkernel_5fwarp_2ecu_147',['gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fcuda_2ecu_148',['gen_embedding_backward_sgd_split_weighted_cuda.cu',['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fkernel_5fcta_2ecu_149',['gen_embedding_backward_sgd_split_weighted_kernel_cta.cu',['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_150',['gen_embedding_backward_sgd_split_weighted_kernel_warp.cu',['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fcuda_2ecu_151',['gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fkernel_5fcta_2ecu_152',['gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fkernel_5fwarp_2ecu_153',['gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadagrad_2ecpp_154',['gen_embedding_backward_split_adagrad.cpp',['../gen__embedding__backward__split__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadagrad_5fcpu_2ecpp_155',['gen_embedding_backward_split_adagrad_cpu.cpp',['../gen__embedding__backward__split__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadam_2ecpp_156',['gen_embedding_backward_split_adam.cpp',['../gen__embedding__backward__split__adam_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadam_5fcpu_2ecpp_157',['gen_embedding_backward_split_adam_cpu.cpp',['../gen__embedding__backward__split__adam__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_2ecpp_158',['gen_embedding_backward_split_approx_rowwise_adagrad.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fcpu_2ecpp_159',['gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_2ecpp_160',['gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_2ecpp_161',['gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_2ecpp_162',['gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fcpu_2ecpp_163',['gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5fsgd_2ecpp_164',['gen_embedding_backward_split_approx_sgd.cpp',['../gen__embedding__backward__split__approx__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5fsgd_5fcpu_2ecpp_165',['gen_embedding_backward_split_approx_sgd_cpu.cpp',['../gen__embedding__backward__split__approx__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fgrad_2ecu_166',['gen_embedding_backward_split_grad.cu',['../gen__embedding__backward__split__grad_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5findice_5fweights_5fcodegen_5fcuda_2ecu_167',['gen_embedding_backward_split_indice_weights_codegen_cuda.cu',['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flamb_2ecpp_168',['gen_embedding_backward_split_lamb.cpp',['../gen__embedding__backward__split__lamb_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flamb_5fcpu_2ecpp_169',['gen_embedding_backward_split_lamb_cpu.cpp',['../gen__embedding__backward__split__lamb__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flars_5fsgd_2ecpp_170',['gen_embedding_backward_split_lars_sgd.cpp',['../gen__embedding__backward__split__lars__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flars_5fsgd_5fcpu_2ecpp_171',['gen_embedding_backward_split_lars_sgd_cpu.cpp',['../gen__embedding__backward__split__lars__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fnone_2ecpp_172',['gen_embedding_backward_split_none.cpp',['../gen__embedding__backward__split__none_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fnone_5fcpu_2ecpp_173',['gen_embedding_backward_split_none_cpu.cpp',['../gen__embedding__backward__split__none__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5fadam_2ecpp_174',['gen_embedding_backward_split_partial_rowwise_adam.cpp',['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5fadam_5fcpu_2ecpp_175',['gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp',['../gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5flamb_2ecpp_176',['gen_embedding_backward_split_partial_rowwise_lamb.cpp',['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5flamb_5fcpu_2ecpp_177',['gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp',['../gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_2ecpp_178',['gen_embedding_backward_split_rowwise_adagrad.cpp',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fcpu_2ecpp_179',['gen_embedding_backward_split_rowwise_adagrad_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fcounter_2ecpp_180',['gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_2ecpp_181',['gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_2ecpp_182',['gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fcpu_2ecpp_183',['gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fweighted_5fadagrad_2ecpp_184',['gen_embedding_backward_split_rowwise_weighted_adagrad.cpp',['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fweighted_5fadagrad_5fcpu_2ecpp_185',['gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp',['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fsgd_2ecpp_186',['gen_embedding_backward_split_sgd.cpp',['../gen__embedding__backward__split__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fsgd_5fcpu_2ecpp_187',['gen_embedding_backward_split_sgd_cpu.cpp',['../gen__embedding__backward__split__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fcodegen_5fcuda_2ecu_188',['gen_embedding_forward_dense_unweighted_codegen_cuda.cu',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fcodegen_5fmeta_2ecpp_189',['gen_embedding_forward_dense_unweighted_codegen_meta.cpp',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fkernel_2ecu_190',['gen_embedding_forward_dense_unweighted_kernel.cu',['../gen__embedding__forward__dense__unweighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fnobag_5fkernel_2ecu_191',['gen_embedding_forward_dense_unweighted_nobag_kernel.cu',['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fnobag_5fkernel_5fsmall_2ecu_192',['gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu',['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fcodegen_5fcuda_2ecu_193',['gen_embedding_forward_dense_weighted_codegen_cuda.cu',['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fcodegen_5fmeta_2ecpp_194',['gen_embedding_forward_dense_weighted_codegen_meta.cpp',['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fkernel_2ecu_195',['gen_embedding_forward_dense_weighted_kernel.cu',['../gen__embedding__forward__dense__weighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5funweighted_5fcodegen_5fcuda_2ecu_196',['gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5funweighted_5fnobag_5fcodegen_5fcuda_2ecu_197',['gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5fweighted_5fcodegen_5fcuda_2ecu_198',['gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp16_5fcodegen_5fcuda_2ecu_199',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp32_5fcodegen_5fcuda_2ecu_200',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp8_5fcodegen_5fcuda_2ecu_201',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint2_5fcodegen_5fcuda_2ecu_202',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint4_5fcodegen_5fcuda_2ecu_203',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint8_5fcodegen_5fcuda_2ecu_204',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp16_5fcodegen_5fcuda_2ecu_205',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp32_5fcodegen_5fcuda_2ecu_206',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp8_5fcodegen_5fcuda_2ecu_207',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint2_5fcodegen_5fcuda_2ecu_208',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint4_5fcodegen_5fcuda_2ecu_209',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint8_5fcodegen_5fcuda_2ecu_210',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp16_5fcodegen_5fcuda_2ecu_211',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp32_5fcodegen_5fcuda_2ecu_212',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp8_5fcodegen_5fcuda_2ecu_213',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint2_5fcodegen_5fcuda_2ecu_214',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint4_5fcodegen_5fcuda_2ecu_215',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint8_5fcodegen_5fcuda_2ecu_216',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5funweighted_5fcodegen_5fcpu_2ecpp_217',['gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fweighted_5fcodegen_5fcpu_2ecpp_218',['gen_embedding_forward_quantized_weighted_codegen_cpu.cpp',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fcodegen_5fcuda_2ecu_219',['gen_embedding_forward_split_unweighted_codegen_cuda.cu',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fcodegen_5fmeta_2ecpp_220',['gen_embedding_forward_split_unweighted_codegen_meta.cpp',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fkernel_2ecu_221',['gen_embedding_forward_split_unweighted_kernel.cu',['../gen__embedding__forward__split__unweighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fnobag_5fkernel_2ecu_222',['gen_embedding_forward_split_unweighted_nobag_kernel.cu',['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fnobag_5fkernel_5fsmall_2ecu_223',['gen_embedding_forward_split_unweighted_nobag_kernel_small.cu',['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fv2_5fkernel_2ecu_224',['gen_embedding_forward_split_unweighted_v2_kernel.cu',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fcodegen_5fcuda_2ecu_225',['gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu',['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fcodegen_5fmeta_2ecpp_226',['gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp',['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fkernel_2ecu_227',['gen_embedding_forward_split_unweighted_vbe_kernel.cu',['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fcodegen_5fcuda_2ecu_228',['gen_embedding_forward_split_weighted_codegen_cuda.cu',['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fcodegen_5fmeta_2ecpp_229',['gen_embedding_forward_split_weighted_codegen_meta.cpp',['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fkernel_2ecu_230',['gen_embedding_forward_split_weighted_kernel.cu',['../gen__embedding__forward__split__weighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fv2_5fkernel_2ecu_231',['gen_embedding_forward_split_weighted_v2_kernel.cu',['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fcodegen_5fcuda_2ecu_232',['gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu',['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fcodegen_5fmeta_2ecpp_233',['gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp',['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fkernel_2ecu_234',['gen_embedding_forward_split_weighted_vbe_kernel.cu',['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_235',['gen_embedding_optimizer_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fadam_5fsplit_5fdevice_5fkernel_2ecuh_236',['gen_embedding_optimizer_adam_split_device_kernel.cuh',['../gen__embedding__optimizer__adam__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_237',['gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fdevice_5fkernel_2ecuh_238',['gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fdevice_5fkernel_2ecuh_239',['gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_240',['gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fdense_5fsplit_5fdevice_5fkernel_2ecuh_241',['gen_embedding_optimizer_dense_split_device_kernel.cuh',['../gen__embedding__optimizer__dense__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5flamb_5fsplit_5fdevice_5fkernel_2ecuh_242',['gen_embedding_optimizer_lamb_split_device_kernel.cuh',['../gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5flars_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_243',['gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fnone_5fsplit_5fdevice_5fkernel_2ecuh_244',['gen_embedding_optimizer_none_split_device_kernel.cuh',['../gen__embedding__optimizer__none__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fpartial_5frowwise_5fadam_5fsplit_5fdevice_5fkernel_2ecuh_245',['gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh',['../gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fpartial_5frowwise_5flamb_5fsplit_5fdevice_5fkernel_2ecuh_246',['gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh',['../gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_2ecpp_247',['gen_embedding_optimizer_rowwise_adagrad_split.cpp',['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fcuda_2ecu_248',['gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu',['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_249',['gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fkernel_2ecu_250',['gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fdevice_5fkernel_2ecuh_251',['gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fdevice_5fkernel_2ecuh_252',['gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fweighted_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_253',['gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_254',['gen_embedding_optimizer_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['generate_5flxu_5fcache_5flocations_255',['generate_lxu_cache_locations',['../uvm__cache__miss__emulate__test_8cpp.html#ad12ee38ec43f8659ee8ce4f63f3857f4',1,'uvm_cache_miss_emulate_test.cpp']]],
+  ['generate_5frandom_5ftable_256',['generate_random_table',['../bench__utils_8cuh.html#a0899793cc86846edfa6ccefb7905f55c',1,'bench_utils.cuh']]],
+  ['generate_5fvbe_5fmetadata_257',['generate_vbe_metadata',['../split__embeddings__utils_8cuh.html#ae0dcbedd529d5873ad0cac75397cb1f8',1,'generate_vbe_metadata(const at::Tensor &amp;B_offsets, const at::Tensor &amp;B_offsets_rank_per_feature, const at::Tensor &amp;output_offsets_feature_rank, const at::Tensor &amp;D_offsets, const int64_t D, const bool nobag, const int64_t max_B_feature_rank, const int64_t info_B_num_bits, const int64_t total_B):&#160;generate_vbe_metadata.cu'],['../generate__vbe__metadata_8cu.html#a9c89bc26edc2d2f4014204d89bd846eb',1,'generate_vbe_metadata(const Tensor &amp;B_offsets, const Tensor &amp;B_offsets_rank_per_feature, const Tensor &amp;output_offsets_feature_rank, const Tensor &amp;D_offsets, const int64_t D, const bool nobag, const int64_t max_B_feature_rank, const int64_t info_B_num_bits, const int64_t total_B):&#160;generate_vbe_metadata.cu']]],
+  ['generate_5fvbe_5fmetadata_2ecu_258',['generate_vbe_metadata.cu',['../generate__vbe__metadata_8cu.html',1,'']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_259',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcuda_260',['generic_histogram_binning_calibration_by_feature_cuda',['../namespacefbgemm__gpu.html#af9209d9d3ea127b5941dcab75bbfd39c',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessor_261',['GenericPackedTensorAccessor',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html',1,'GenericPackedTensorAccessor&lt; T, N, PtrTraits, index_t &gt;'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a05cb3acde0a408e40526aad85584b274',1,'fbgemm_gpu::GenericPackedTensorAccessor::GenericPackedTensorAccessor(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa8ff94c7184e151415673957258747e2',1,'fbgemm_gpu::GenericPackedTensorAccessor::GenericPackedTensorAccessor(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a05cb3acde0a408e40526aad85584b274',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::GenericPackedTensorAccessor(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#aa8ff94c7184e151415673957258747e2',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::GenericPackedTensorAccessor(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)']]],
+  ['genericpackedtensoraccessor_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_262',['GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessorbase_263',['GenericPackedTensorAccessorBase',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'GenericPackedTensorAccessorBase&lt; T, N, PtrTraits, index_t &gt;'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::GenericPackedTensorAccessorBase(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#aab339f541ab3ce6195cabda68f736598',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::GenericPackedTensorAccessorBase(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)']]],
+  ['genericpackedtensoraccessorbase_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_264',['GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessorbase_3c_20t_2c_20n_2c_20defaultptrtraits_2c_20int64_5ft_20_3e_265',['GenericPackedTensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['get_266',['get',['../classssd_1_1_embedding_rocks_d_b.html#a9a5671e5de645f247452456ffdfa81a9',1,'ssd::EmbeddingRocksDB']]],
+  ['get_5fcuda_267',['get_cuda',['../classssd_1_1_embedding_rocks_d_b.html#ac8082829ce873543f6388ddbd16362e8',1,'ssd::EmbeddingRocksDB']]],
+  ['get_5fd_5fbytes_268',['get_D_bytes',['../embedding__inplace__update__test_8cpp.html#a602d9bde988d40aaa1d846c76f8d87c7',1,'embedding_inplace_update_test.cpp']]],
+  ['get_5fdevice_5findex_5ffrom_5ftensor_269',['get_device_index_from_tensor',['../sparse__ops__utils_8h.html#a672c3da6666124b2950b2eef43587bc6',1,'get_device_index_from_tensor(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#af97638412af3aea185ac327ebe398542',1,'get_device_index_from_tensor(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['get_5fgroup_5findex_5fselect_5fcols_5fper_5fwarp_270',['get_group_index_select_cols_per_warp',['../namespacefbgemm__gpu.html#a4296f0fdcb9a3dcfdd67549340e8f38c',1,'fbgemm_gpu']]],
+  ['get_5finfos_5fmetadata_271',['get_infos_metadata',['../split__embeddings__utils_8cuh.html#a0994f8d37247e9754d069f16ee195c01',1,'get_infos_metadata(at::Tensor unused, int64_t B, int64_t T):&#160;get_infos_metadata.cu'],['../get__infos__metadata_8cu.html#a487bdb340f5c93165158a37aaf156fe9',1,'get_infos_metadata(Tensor unused, int64_t B, int64_t T):&#160;get_infos_metadata.cu']]],
+  ['get_5finfos_5fmetadata_2ecu_272',['get_infos_metadata.cu',['../get__infos__metadata_8cu.html',1,'']]],
+  ['get_5fnext_5fbag_5fboundary_5fand_5fl_273',['get_next_bag_boundary_and_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['get_5fnvlink_5fmatrix_274',['get_nvlink_matrix',['../namespacefbgemm__gpu.html#ae554e4e9d8789449846323c52f840fe8',1,'fbgemm_gpu']]],
+  ['get_5funique_5findices_5fcuda_275',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
+  ['get_5fvalid_5fcpu_5ftensor_276',['get_valid_cpu_tensor',['../sparse__ops__utils__test_8cpp.html#a740d263ecb80b6e7cf28a86f561450b7',1,'sparse_ops_utils_test.cpp']]],
+  ['getpointer_277',['getPointer',['../structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html#ac04ebca5545952c6185a2693bc5d9fc9',1,'fbgemm_gpu::SharedMemory&lt; int64_t &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html#a3472f2fcb0b65202627a7a5d0b47ab8f',1,'fbgemm_gpu::SharedMemory&lt; int32_t &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html#a11507d418a31c798c09f74aa6569fb72',1,'fbgemm_gpu::SharedMemory&lt; float &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html#a53ef47c469305fb8b5427b2a0063db6f',1,'fbgemm_gpu::SharedMemory&lt; double &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html#aa277fc58794548c1d2619afa9cd0be9e',1,'fbgemm_gpu::SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html#a79e2902e4ab8379789578754af90253f',1,'fbgemm_gpu::SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;::getPointer()']]],
+  ['getscalartype_278',['getScalarType',['../namespacefbgemm__gpu.html#ac7d6b4d86c0ce57c3af88ea03123fdb4',1,'fbgemm_gpu']]],
+  ['getsparsetype_279',['getSparseType',['../namespacefbgemm__gpu.html#a7dbc3a3bde83bfe7a18b720197f0f830',1,'fbgemm_gpu']]],
+  ['global_5fwarp_5fid_280',['global_warp_id',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6',1,'global_warp_id:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6',1,'global_warp_id:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['gpuatomicincrement_281',['gpuAtomicIncrement',['../embedding__backward__template__helpers_8cuh.html#aa054bfcfa5ed7f584d2811fe48a2f757',1,'embedding_backward_template_helpers.cuh']]],
+  ['grad_5fdev_5findices_282',['grad_dev_indices',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['grad_5fdev_5fweights_283',['grad_dev_weights',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['grad_5foutput_284',['grad_output',['../namespacefbgemm__gpu.html#a2a24c1ec3db68358edcac4561d38a0d1',1,'fbgemm_gpu']]],
+  ['grad_5fsum_285',['grad_sum',['../namespacefbgemm__gpu.html#ae1519b6699f9dca1080e9230f3d95245',1,'fbgemm_gpu']]],
+  ['grad_5fweight_286',['grad_weight',['../namespacefbgemm__gpu.html#a5b80925f60fbc21517ec3a2e137b78bd',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fcols_5fper_5fwarp_287',['GROUP_INDEX_SELECT_COLS_PER_WARP',['../namespacefbgemm__gpu.html#a0d76fd54f347327376ed8ba28ff66bfc',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_288',['group_index_select_dim0_gpu',['../namespacefbgemm__gpu.html#a33cd874aab109dc15436869064c3d689',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fbackward_5fmeta_289',['group_index_select_dim0_gpu_backward_meta',['../namespacefbgemm__gpu.html#a213539d8845a20efd90e93fed16f1090',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fimpl_290',['group_index_select_dim0_gpu_impl',['../namespacefbgemm__gpu.html#abda14dada6ae2b39b175ed52824dbfa5',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fimpl_5fmeta_291',['group_index_select_dim0_gpu_impl_meta',['../namespacefbgemm__gpu.html#a8d89670eae5b860788cb14175f01ce7e',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5funpack_292',['group_index_select_dim0_unpack',['../namespacefbgemm__gpu.html#ac4851777dc16c28c94a2cc9b58d3923c',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5flog_5fcols_5fper_5fwarp_293',['GROUP_INDEX_SELECT_LOG_COLS_PER_WARP',['../namespacefbgemm__gpu.html#a696ffb981f6c273f77aae0cf102b1f6b',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5for_5fadd_5fcuda_294',['group_index_select_or_add_cuda',['../namespacefbgemm__gpu.html#a394db33cacde2480607d48fe227274ef',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5funroll_5ffactor_295',['GROUP_INDEX_SELECT_UNROLL_FACTOR',['../namespacefbgemm__gpu.html#a693bb0de52991f987fe81dc61c750403',1,'fbgemm_gpu']]],
+  ['group_5fsize_296',['group_size',['../namespacefbgemm__gpu.html#af0a2fbea18e37c564b3cada4172d96ff',1,'fbgemm_gpu']]],
+  ['gt_297',['gt',['../structfbgemm__gpu_1_1_comparator.html#a869e6734f5357dab7a63300629b414c8',1,'fbgemm_gpu::Comparator']]]
 ];
diff --git a/search/all_8.js b/search/all_8.js
index bf0276894..8bd98e0c4 100644
--- a/search/all_8.js
+++ b/search/all_8.js
@@ -1,8 +1,23 @@
 var searchData=
 [
-  ['jagged_20tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
-  ['jagged_20tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
-  ['jagged_5fdense_5felementwise_5fadd_2',['jagged_dense_elementwise_add',['../group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7',1,'fbgemm_gpu']]],
-  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_3',['jagged_dense_elementwise_add_jagged_output',['../group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c',1,'fbgemm_gpu']]],
-  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fcuda_4',['jagged_dense_elementwise_add_jagged_output_cuda',['../group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938',1,'fbgemm_gpu']]]
+  ['half4_0',['Half4',['../structfbgemm__gpu_1_1_half4.html',1,'fbgemm_gpu']]],
+  ['half4_1',['half4',['../jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b',1,'common.cuh']]],
+  ['half8_2',['half8',['../jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6',1,'common.cuh']]],
+  ['half_5fto_5ffused8bitrowwise_5fcpu_3',['half_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#gaa9daf4f3dc64238a5de8f82bbae656cf',1,'fbgemm_gpu']]],
+  ['half_5fto_5ffusednbitrowwise_5fcpu_4',['half_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a545dc5567b0a08c31f65e2fc7ae21749',1,'fbgemm_gpu']]],
+  ['has_5fgauss_5',['has_gauss',['../structfbgemm__gpu_1_1rk__state.html#a629587b5f04293ea2b0bf452faa48344',1,'fbgemm_gpu::rk_state']]],
+  ['hex_6',['HEX',['../_c_make_c_compiler_id_8c.html#a46d5d95daa1bef867bd0179594310ed5',1,'HEX:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a46d5d95daa1bef867bd0179594310ed5',1,'HEX:&#160;CMakeCXXCompilerId.cpp']]],
+  ['hfma2_7',['hfma2',['../namespacefbgemm__gpu.html#a3ff3d0d7b40d8f2909fa6b35d64d250d',1,'fbgemm_gpu']]],
+  ['hfp8_5fto_5ffloat_8',['hfp8_to_float',['../namespacefbgemm__gpu.html#a1f35a2d3a2ede2e58e7986f8c2c757ec',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_9',['histogram_binning_calibration_by_feature_cpu',['../namespacefbgemm__gpu.html#a499764d7156d294219e3ae2629ae229f',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fby_5ffeature_5fcuda_10',['histogram_binning_calibration_by_feature_cuda',['../namespacefbgemm__gpu.html#ac639ce2e71982d5d1da0a30c92858aa8',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fcpu_11',['histogram_binning_calibration_cpu',['../group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fcuda_12',['histogram_binning_calibration_cuda',['../namespacefbgemm__gpu.html#a1b19059704ba1911efbedf4adcbb0ee3',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fops_2ecu_13',['histogram_binning_calibration_ops.cu',['../histogram__binning__calibration__ops_8cu.html',1,'']]],
+  ['hmul_14',['hmul',['../namespacefbgemm__gpu.html#ab50e28187eb7fdf5b8cd74cd8150b025',1,'fbgemm_gpu']]],
+  ['hmul_5fshort2_15',['hmul_short2',['../namespacefbgemm__gpu.html#a257181e3db25da8e4d1b4ef73976271d',1,'fbgemm_gpu']]],
+  ['host_16',['HOST',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194ab9361011891280a44d85b967739cc6a5',1,'fbgemm_gpu']]],
+  ['host_5flxu_5fcache_5fslot_17',['host_lxu_cache_slot',['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu']]],
+  ['hostasynchronousthreadpoolexecutor_18',['hostAsynchronousThreadPoolExecutor',['../namespacessd.html#ac14b5cc833767dd1941b5c2de7153299',1,'ssd']]],
+  ['hypercompressedsparsecolumn_19',['HyperCompressedSparseColumn',['../structinternal_1_1_hyper_compressed_sparse_column.html',1,'internal']]]
 ];
diff --git a/search/all_9.js b/search/all_9.js
index 8a8780d6c..842aecf05 100644
--- a/search/all_9.js
+++ b/search/all_9.js
@@ -1,16 +1,74 @@
 var searchData=
 [
-  ['layout_20transformation_20cpu_20operators_0',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
-  ['layout_20transformation_20cuda_20operators_1',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]],
-  ['lfu_5fcache_5fpopulate_5fbyte_5fcuda_2',['lfu_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu'],['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu']]],
-  ['lfu_5fcache_5fpopulate_5fcuda_3',['lfu_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu'],['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu']]],
-  ['linearize_5fcache_5findices_5fcuda_4',['linearize_cache_indices_cuda',['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor indices, at::Tensor offsets):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(Tensor cache_hash_size_cumsum, Tensor indices, Tensor offsets):&#160;linearize_cache_indices.cu']]],
-  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcuda_5',['linearize_cache_indices_from_row_idx_cuda',['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(Tensor cache_hash_size_cumsum, Tensor update_table_indices, Tensor update_row_indices):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor update_table_indices, at::Tensor update_row_indices):&#160;linearize_cache_indices.cu']]],
-  ['lru_5fcache_5ffind_5funcached_5fcuda_6',['lru_cache_find_uncached_cuda',['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(at::Tensor unique_indices, at::Tensor unique_indices_length, int64_t max_indices, at::Tensor lxu_cache_state, int64_t time_stamp, at::Tensor lru_state, bool gather_cache_stats, at::Tensor uvm_cache_stats, bool lock_cache_line, at::Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu'],['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(Tensor unique_indices, Tensor unique_indices_length, int64_t max_indices, Tensor lxu_cache_state, int64_t time_stamp, Tensor lru_state, bool gather_cache_stats, Tensor uvm_cache_stats, bool lock_cache_line, Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu']]],
-  ['lru_5fcache_5fpopulate_5fbyte_5fcuda_7',['lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lru_5fcache_5fpopulate_5fcuda_8',['lru_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lxu_5fcache_5fflush_5fcuda_9',['lxu_cache_flush_cuda',['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(at::Tensor uvm_weights, at::Tensor cache_hash_size_cumsum, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(Tensor uvm_weights, Tensor cache_hash_size_cumsum, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor lxu_cache_state, Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu']]],
-  ['lxu_5fcache_5flocations_5fupdate_5fcuda_10',['lxu_cache_locations_update_cuda',['../group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lxu_5fcache_5flocking_5fcounter_5fdecrement_5fcuda_11',['lxu_cache_locking_counter_decrement_cuda',['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu']]],
-  ['lxu_5fcache_5flookup_5fcuda_12',['lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f',1,'split_embeddings_cache_cuda.cuh']]]
+  ['idx_0',['idx',['../namespacefbgemm__gpu.html#a9d7e9481c420588a334b2aedac0f5af4',1,'fbgemm_gpu']]],
+  ['if_1',['if',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4',1,'if(t &gt;=T):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a37c3fe73e60868097d45b151e9c4a430',1,'if(is_zero_total_L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a49e7c05f68f0175f3c44c6b1c12c5117',1,'if(is_small_L &amp;&amp;table_warp_id &gt;=num_warps_for_small_L *8):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1958ec7365ff8575f7973e15353c0121',1,'if(threadIdx.x==0):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a509435224d0201170dbceeef2d47698f',1,'if(table_warp_id &gt;=num_warps_per_row *(is_small_L ? num_warps_for_small_L :B)):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a4ab8250d245b6612c02d934b63fdcd52',1,'if(is_small_L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec',1,'if(L&lt;=1):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af6822b01edff1e16c53f21b0c6142ffd',1,'if(load_D - load_d&lt; kWarpSize):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4',1,'if(t &gt;=T):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a37c3fe73e60868097d45b151e9c4a430',1,'if(is_zero_total_L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a49e7c05f68f0175f3c44c6b1c12c5117',1,'if(is_small_L &amp;&amp;table_warp_id &gt;=num_warps_for_small_L *8):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1958ec7365ff8575f7973e15353c0121',1,'if(threadIdx.x==0):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a509435224d0201170dbceeef2d47698f',1,'if(table_warp_id &gt;=num_warps_per_row *(is_small_L ? num_warps_for_small_L :B)):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a4ab8250d245b6612c02d934b63fdcd52',1,'if(is_small_L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec',1,'if(L&lt;=1):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../bench__utils_8cuh.html#aa3487d3e764e516ac71de417077959a6',1,'if(do_write *val):&#160;bench_utils.cuh'],['../namespacefbgemm__gpu.html#a29ef435892df0dc6cd3fa9769486e659',1,'fbgemm_gpu::if(index &gt;=num_logits)'],['../namespacefbgemm__gpu.html#a32dace4feb1fa305053fd440163ba422',1,'fbgemm_gpu::if(curr_bin_num_examples &gt; bin_ctr_in_use_after)'],['../namespacefbgemm__gpu.html#a4b4f7604af9accc2a43a8e060b6145e7',1,'fbgemm_gpu::if(index &gt;=num_lengths - 1)'],['../namespacefbgemm__gpu.html#ac2276128422f0c744cc68659b731d53a',1,'fbgemm_gpu::if(next_offset==curr_offset+1)'],['../namespacefbgemm__gpu.html#a1d72e092775be40f6a57865b410d55e9',1,'fbgemm_gpu::if(list_id &gt;=num_lists)'],['../namespacefbgemm__gpu.html#aa41e0708c4b465d4a89e0c1de6a60dd1',1,'fbgemm_gpu::if(per_sample_weights_addrs)'],['../namespacefbgemm__gpu.html#a6080a87e4588877fbbdd8a03d16d927d',1,'fbgemm_gpu::if(b &gt;=B)'],['../namespacefbgemm__gpu.html#a9e204163946d36c19beef5443a1b71b6',1,'fbgemm_gpu::if(n &gt;=N)'],['../namespacefbgemm__gpu.html#aa6453091b8359fcc2da599396bb27f52',1,'fbgemm_gpu::if(run_id &gt;=sorted_linear_indices_run.size(0))'],['../namespacefbgemm__gpu.html#ad0904756703f278e8c03d0be1918211b',1,'fbgemm_gpu::if(run_id &gt;=sorted_linear_indices_num_runs[0])'],['../namespacefbgemm__gpu.html#aaf49df4f26b7eff1308265a096c0c768',1,'fbgemm_gpu::if(SL==0)'],['../namespacefbgemm__gpu.html#a426625b7d5c06c4059e34784c1fdd74f',1,'fbgemm_gpu::if(t &gt;=T||b &gt;=batch_size_per_feature[t])'],['../namespacefbgemm__gpu.html#ae198c10fa781aa859c0e8666fc10063b',1,'fbgemm_gpu::if(i &gt;=input_size)'],['../namespacefbgemm__gpu.html#a1958ec7365ff8575f7973e15353c0121',1,'fbgemm_gpu::if(threadIdx.x==0)']]],
+  ['ignore_2',['IGNORE',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaaa2e843feab94ef623fea888f07c28696',1,'fbgemm_gpu']]],
+  ['inclusive_5fsum_5fscan_5fkernel_3',['inclusive_sum_scan_kernel',['../namespacefbgemm__gpu.html#ae86238f4ca864fb4ea41318ece747ab4',1,'fbgemm_gpu']]],
+  ['index_5fadd_4',['index_add',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_add()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_add()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_add()']]],
+  ['index_5fadd_5fwith_5funique_5findices_5fcuda_5',['index_add_with_unique_indices_cuda',['../namespacefbgemm__gpu.html#a80e08c6c5c1ebf2b34c6490eee0e8415',1,'fbgemm_gpu']]],
+  ['index_5ffma_6',['index_fma',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_fma()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_fma()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_fma()']]],
+  ['index_5fselect_5fcuda_7',['index_select_cuda',['../namespacefbgemm__gpu.html#a543ba161110516ef84a9fbeb83c7af5c',1,'fbgemm_gpu']]],
+  ['index_5fselect_5fdim0_5fgpu_8',['index_select_dim0_gpu',['../namespacefbgemm__gpu.html#a170ff30798a3bcf42cc3f0669f938450',1,'fbgemm_gpu']]],
+  ['index_5fselect_5fscalar_5fcumsum_5fkernel_9',['index_select_scalar_cumsum_kernel',['../namespacefbgemm__gpu.html#aa762379def70fcfe1f15ff2a347af4a9',1,'fbgemm_gpu']]],
+  ['index_5fstore_10',['index_store',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, uint8_t *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, uint8_t *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, uint8_t *ptr)']]],
+  ['index_5fweighted_5fstore_11',['index_weighted_store',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)']]],
+  ['index_5fweights_12',['index_weights',['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['indices_13',['indices',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff',1,'indices:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a983b46d1ccd1b8d7ee0f786801acdabf',1,'indices:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179',1,'indices:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac6808dbd8c1563373cd2bf230c07e283',1,'indices:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179',1,'indices:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6',1,'fbgemm_gpu::indices']]],
+  ['indices_5faddrs_14',['indices_addrs',['../namespacefbgemm__gpu.html#a192b4d5303123cf4b57b1491cd42e36e',1,'fbgemm_gpu']]],
+  ['indices_5fdata_15',['indices_data',['../namespacefbgemm__gpu.html#acb7eb1c50758e407a638a81723961f56',1,'fbgemm_gpu']]],
+  ['indices_5fend_16',['indices_end',['../namespacefbgemm__gpu.html#ac7c7ecdd5162f325b65a6b5c5c6c40ca',1,'fbgemm_gpu']]],
+  ['indices_5fis_5flong_17',['indices_is_long',['../namespacefbgemm__gpu.html#a3d08a36103c24a910afe1dbfa89e3060',1,'fbgemm_gpu']]],
+  ['indices_5foffsets_18',['indices_offsets',['../namespacefbgemm__gpu.html#af03fdab0a39bf13b8ec4de336253b8aa',1,'fbgemm_gpu']]],
+  ['indices_5fptrs_19',['indices_ptrs',['../namespacefbgemm__gpu.html#a7e26138f974174b1cd94f35321fef17d',1,'fbgemm_gpu']]],
+  ['indices_5fstart_20',['indices_start',['../namespacefbgemm__gpu.html#a43255cb54bbd791afb26a23af02acfec',1,'fbgemm_gpu']]],
+  ['indices_5fto_5flb_21',['indices_to_lb',['../namespacefbgemm__gpu.html#af069d2baffbfbe0b8aae6aea56d31e86',1,'fbgemm_gpu']]],
+  ['info_22',['info',['../namespacefbgemm__gpu.html#aa494944475a226c613cdd03931ba061d',1,'fbgemm_gpu']]],
+  ['info_5farch_23',['info_arch',['../_c_make_c_compiler_id_8c.html#a59647e99d304ed33b15cb284c27ed391',1,'info_arch:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a59647e99d304ed33b15cb284c27ed391',1,'info_arch:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5fb_5fmask_24',['info_B_mask',['../namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f',1,'fbgemm_gpu']]],
+  ['info_5fb_5fnum_5fbits_25',['info_B_num_bits',['../namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453',1,'fbgemm_gpu']]],
+  ['info_5fcompiler_26',['info_compiler',['../_c_make_c_compiler_id_8c.html#a4b0efeb7a5d59313986b3a0390f050f6',1,'info_compiler:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a4b0efeb7a5d59313986b3a0390f050f6',1,'info_compiler:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5flanguage_5fextensions_5fdefault_27',['info_language_extensions_default',['../_c_make_c_compiler_id_8c.html#a0f46a8a39e09d9b803c4766904fd7e99',1,'info_language_extensions_default:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a0f46a8a39e09d9b803c4766904fd7e99',1,'info_language_extensions_default:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5flanguage_5fstandard_5fdefault_28',['info_language_standard_default',['../_c_make_c_compiler_id_8c.html#a4607cccf070750927b458473ca82c090',1,'info_language_standard_default:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a4607cccf070750927b458473ca82c090',1,'info_language_standard_default:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5fplatform_29',['info_platform',['../_c_make_c_compiler_id_8c.html#a2321403dee54ee23f0c2fa849c60f7d4',1,'info_platform:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a2321403dee54ee23f0c2fa849c60f7d4',1,'info_platform:&#160;CMakeCXXCompilerId.cpp']]],
+  ['initializer_30',['Initializer',['../classssd_1_1_initializer.html',1,'Initializer'],['../classssd_1_1_initializer.html#af5e246dd12f1a6c4e06ab77a41bd0590',1,'ssd::Initializer::Initializer()']]],
+  ['input_20operators_31',['Combine Input Operators',['../group__input-combine.html',1,'']]],
+  ['input_5fcombine_2ecu_32',['input_combine.cu',['../input__combine_8cu.html',1,'']]],
+  ['input_5fcombine_2eh_33',['input_combine.h',['../input__combine_8h.html',1,'']]],
+  ['input_5fcombine_5fcpu_2ecpp_34',['input_combine_cpu.cpp',['../input__combine__cpu_8cpp.html',1,'']]],
+  ['input_5fcombine_5fgpu_2ecpp_35',['input_combine_gpu.cpp',['../input__combine__gpu_8cpp.html',1,'']]],
+  ['input_5foffsets_36',['input_offsets',['../namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553',1,'fbgemm_gpu']]],
+  ['input_5fsize_37',['input_size',['../namespacefbgemm__gpu.html#a5549affa3c112bf0c71b0e2323eb0c14',1,'fbgemm_gpu']]],
+  ['instantiate_5fbatched_5fcsr2csc_38',['INSTANTIATE_BATCHED_CSR2CSC',['../embedding__forward__split__cpu_8cpp.html#a32da455953694aac0b5e837bd3f1c31a',1,'embedding_forward_split_cpu.cpp']]],
+  ['int_39',['INT',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a53f93baa3057821107c750323892fa92',1,'fbgemm_gpu']]],
+  ['int2_40',['INT2',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea8fbf1fab49398b0d298699ea3ccbebc5',1,'fbgemm_gpu']]],
+  ['int32_5ft_41',['int32_t',['../namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99',1,'fbgemm_gpu']]],
+  ['int4_42',['INT4',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea94635600f8a63640263a5ebc30d79a2a',1,'fbgemm_gpu']]],
+  ['int64_5ft_43',['int64_t',['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__split__grad_8cu.html#af261ebff9d4ab236e8dd6bea30db7fb1',1,'int64_t:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]],
+  ['int8_44',['INT8',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaee9d73311ff0658494edfff14c3ec1e3',1,'fbgemm_gpu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5funweighted_5fcpu_45',['int_nbit_split_embedding_codegen_forward_unweighted_cpu',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a',1,'int_nbit_split_embedding_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a',1,'int_nbit_split_embedding_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_46',['int_nbit_split_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#a9c3b5fb374c1ef95520bc4e30b66325e',1,'int_nbit_split_embedding_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, const int64_t total_D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t pooling_mode, const int64_t row_alignment, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a5a581a6131f9754699b4e5bb27b20ecb',1,'int_nbit_split_embedding_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5fweighted_5fcpu_47',['int_nbit_split_embedding_codegen_forward_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6',1,'int_nbit_split_embedding_codegen_forward_weighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_weighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6',1,'int_nbit_split_embedding_codegen_forward_weighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_48',['int_nbit_split_embedding_codegen_forward_weighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae65cbb34f3d373fe3e12b7bb899c1b10',1,'int_nbit_split_embedding_codegen_forward_weighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, const int64_t total_D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t pooling_mode, const int64_t row_alignment, Tensor indice_weights, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a79655cba701e82021eefe7fe8cb72916',1,'int_nbit_split_embedding_codegen_forward_weighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5flookup_5ffunction_49',['int_nbit_split_embedding_codegen_lookup_function',['../group__embedding-cuda.html#ga0749f1c6540189dd47b32a56858f82fb',1,'embedding_forward_quantized_host.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5flookup_5ffunction_5fcpu_50',['int_nbit_split_embedding_codegen_lookup_function_cpu',['../group__embedding-cpu.html#gac115303550aa9af7c170baef63bcdb00',1,'embedding_forward_quantized_host_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcpu_51',['int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#ab6ae7551f9cd9d5cdb845240887aeaa1',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, const int64_t D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#af3d9ee6fd394ec0055de7f2c2acfba3d',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, int64_t D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_52',['int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#a9b168b9b2d002f86f7f16211b83fced0',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, const int64_t D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t row_alignment, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a0545cdf708e09c0958f1538e7b4b29c9',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, int64_t D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t row_alignment, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_53',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_5fcpu_54',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu',['../group__embedding-cpu.html#gaf5c83f0c03200546398764261403749d',1,'embedding_forward_quantized_host_cpu.cpp']]],
+  ['internal_55',['internal',['../namespaceinternal.html',1,'']]],
+  ['invalid_56',['INVALID',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaccc0377a8afbf50e7094f5c23a8af223',1,'fbgemm_gpu']]],
+  ['invert_5fpermute_5fcpu_57',['invert_permute_cpu',['../namespacefbgemm__gpu.html#aa79c3b125ba955f02e8ee2e70b1bbd32',1,'fbgemm_gpu']]],
+  ['invoke_5fgroup_5findex_5fselect_5for_5fadd_58',['INVOKE_GROUP_INDEX_SELECT_OR_ADD',['../sparse__group__index_8cu.html#acc7197a16e3ef386f0fd807a0919110b',1,'sparse_group_index.cu']]],
+  ['invoke_5fkernel_5fwith_5fdim_59',['INVOKE_KERNEL_WITH_DIM',['../jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;common.cuh'],['../jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;common.cuh'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp']]],
+  ['invoke_5flinearize_5findex_5fkernel_60',['INVOKE_LINEARIZE_INDEX_KERNEL',['../transpose__embedding__input_8cu.html#ac03452638c5653f404a402f9f7356841',1,'transpose_embedding_input.cu']]],
+  ['invoke_5fprocess_5fall_5findices_61',['INVOKE_PROCESS_ALL_INDICES',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['invoke_5fprocess_5fall_5findices_5fhelper_62',['INVOKE_PROCESS_ALL_INDICES_HELPER',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['is_5faligned_63',['is_aligned',['../namespacefbgemm__gpu.html#ae24b9318a63a9532f426abc0b0e94819',1,'fbgemm_gpu']]],
+  ['is_5flong_5fidx_64',['is_long_idx',['../namespacefbgemm__gpu.html#a96187c00fa81aaf4d6404cc915a5d7b7',1,'fbgemm_gpu']]],
+  ['is_5flong_5fmask_65',['is_long_mask',['../namespacefbgemm__gpu.html#ace5ac8a87afdca35747d5c9bd8e33e73',1,'fbgemm_gpu']]],
+  ['is_5flong_5fnum_5fbits_66',['IS_LONG_NUM_BITS',['../namespacefbgemm__gpu.html#ab9c0e24618d9ec723a7fcc8653c0dd59',1,'fbgemm_gpu']]],
+  ['is_5fsmall_5fl_67',['is_small_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3',1,'is_small_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3',1,'is_small_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['is_5fuvm_5ftensor_68',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]],
+  ['is_5fzero_5ftotal_5fl_69',['is_zero_total_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385',1,'is_zero_total_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385',1,'is_zero_total_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['items_5f_70',['items_',['../classfbgemm__gpu_1_1enum__registration.html#addb614cfff2cdb5220c587cbfd7b08fb',1,'fbgemm_gpu::enum_registration']]]
 ];
diff --git a/search/all_a.js b/search/all_a.js
index 4ddf8079f..ebce08b6b 100644
--- a/search/all_a.js
+++ b/search/all_a.js
@@ -1,5 +1,89 @@
 var searchData=
 [
-  ['memorty_20operators_0',['CUDA Memorty Operators',['../group__cumem-utils.html',1,'']]],
-  ['merge_20operators_1',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]]
+  ['jagged_20tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
+  ['jagged_20tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
+  ['jagged_5f1d_5fto_5fdense_2',['jagged_1d_to_dense',['../group__jagged-tensor-ops-cpu.html#ga93b5edf03f38d8eaf9a0f1ece0bc1af7',1,'fbgemm_gpu']]],
+  ['jagged_5f1d_5fto_5fdense_5fmeta_3',['jagged_1d_to_dense_meta',['../namespacefbgemm__gpu.html#afdde1bd5a99cc5bcdfaf27b4c42cad7b',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_4',['jagged_2d_to_dense',['../group__jagged-tensor-ops-cpu.html#gaaa301b81a22a3d823ba5e65828093113',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fforward_5fcpu_5',['jagged_2d_to_dense_forward_cpu',['../namespacefbgemm__gpu.html#a70d2cdc82d96c9c4298b57133393a800',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fgpu_5fbackward_6',['jagged_2d_to_dense_gpu_backward',['../namespacefbgemm__gpu.html#a7c104248a9abcdcdac6bdcac571930a4',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fgpu_5fforward_7',['jagged_2d_to_dense_gpu_forward',['../namespacefbgemm__gpu.html#a56c28427858ea272148bdbfb9f373191',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fmeta_8',['jagged_2d_to_dense_meta',['../namespacefbgemm__gpu.html#a67b19e389f869540bd35510d4e8e7908',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_9',['jagged_dense_bmm',['../namespacefbgemm__gpu.html#aed181c3885f392fec8c38cdf10266d68',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_10',['jagged_dense_bmm_forward',['../namespacefbgemm__gpu.html#a3eec1622180be9b7a31891d5e9f2ba71',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_2ecu_11',['jagged_dense_bmm_forward.cu',['../jagged__dense__bmm__forward_8cu.html',1,'']]],
+  ['jagged_5fdense_5fbmm_5fforward_5fcuda_12',['jagged_dense_bmm_forward_cuda',['../namespacefbgemm__gpu.html#a4961acd2615018dff4fdf1390158f0a4',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_5fmeta_13',['jagged_dense_bmm_forward_meta',['../namespacefbgemm__gpu.html#a022cdaaee01f619cf0cb7b29d80cbc65',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fkernel_14',['jagged_dense_bmm_kernel',['../namespacefbgemm__gpu.html#a6c32f4b4ccfdef9cf63d463cb235ec38',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_15',['jagged_dense_dense_elementwise_add_jagged_output',['../namespacefbgemm__gpu.html#a47e4d714a08316066470d979f97f1d81',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_16',['jagged_dense_dense_elementwise_add_jagged_output_forward',['../namespacefbgemm__gpu.html#a10611541bdce9c65bfe48a01474d1725',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_2ecu_17',['jagged_dense_dense_elementwise_add_jagged_output_forward.cu',['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html',1,'']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_5fmeta_18',['jagged_dense_dense_elementwise_add_jagged_output_forward_meta',['../namespacefbgemm__gpu.html#a56cac54ea3d7672c629010018ba59568',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fmeta_19',['jagged_dense_dense_elementwise_add_jagged_output_meta',['../namespacefbgemm__gpu.html#ab421ce372347f826b7e7ff9e35f26c93',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5f_20',['jagged_dense_dense_elementwise_jagged_output_',['../namespacefbgemm__gpu.html#a319b3f5f33bec0aff79f0ee990483f3d',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5fmatches_5fopt_21',['jagged_dense_dense_elementwise_jagged_output_matches_opt',['../namespacefbgemm__gpu.html#adfb04060c9eecdadcf59b3c15d5bca08',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5fopt_5f_22',['jagged_dense_dense_elementwise_jagged_output_opt_',['../namespacefbgemm__gpu.html#aac40d60c62b0d176a962cdad964e34f6',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_23',['jagged_dense_elementwise_add',['../group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_24',['jagged_dense_elementwise_add_jagged_output',['../group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fcuda_25',['jagged_dense_elementwise_add_jagged_output_cuda',['../group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fmeta_26',['jagged_dense_elementwise_add_jagged_output_meta',['../namespacefbgemm__gpu.html#a16d84a11c2e32cb0064721354fb190b7',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fmeta_27',['jagged_dense_elementwise_add_meta',['../namespacefbgemm__gpu.html#aff88b44d096bd7a039dca72a5855198c',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fjagged_5foutput_5f_28',['jagged_dense_elementwise_jagged_output_',['../namespacefbgemm__gpu.html#a124d128a82ffb0342ce597d0325060fb',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fjagged_5foutput_5fopt_5f_29',['jagged_dense_elementwise_jagged_output_opt_',['../namespacefbgemm__gpu.html#aded7d8ce8ffbcce568c498fb32a7d071',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_30',['jagged_dense_elementwise_mul',['../group__jagged-tensor-ops-cpu.html#ga5521ad46f5bab0d77c8bb036742f455d',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_31',['jagged_dense_elementwise_mul_backward',['../namespacefbgemm__gpu.html#a6de8f2f64f7d90ab1997df02470a9564',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_2ecu_32',['jagged_dense_elementwise_mul_backward.cu',['../jagged__dense__elementwise__mul__backward_8cu.html',1,'']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_5fmeta_33',['jagged_dense_elementwise_mul_backward_meta',['../namespacefbgemm__gpu.html#abfbf6c239d283084ed1c68f18ea24af5',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_34',['jagged_dense_elementwise_mul_forward',['../namespacefbgemm__gpu.html#aaa297ab58f55125d7eb7b040cc4c254b',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_2ecu_35',['jagged_dense_elementwise_mul_forward.cu',['../jagged__dense__elementwise__mul__forward_8cu.html',1,'']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_5fmeta_36',['jagged_dense_elementwise_mul_forward_meta',['../namespacefbgemm__gpu.html#ac30cb8e7e035c24bf4f6ac15bf1b623a',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fmeta_37',['jagged_dense_elementwise_mul_meta',['../namespacefbgemm__gpu.html#aaeeacda7f3587bfe9bf2ecf376dd635e',1,'fbgemm_gpu']]],
+  ['jagged_5fhash_5fsize_5fcumsum_5fcuda_38',['jagged_hash_size_cumsum_cuda',['../namespacefbgemm__gpu.html#aabd8b530d0ac7e5cb96cf19c7eb517e9',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_2ecu_39',['jagged_index_add_2d_forward.cu',['../jagged__index__add__2d__forward_8cu.html',1,'']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fcpu_40',['jagged_index_add_2d_forward_cpu',['../namespacefbgemm__gpu.html#af80524a7d454f6db1c478808e8a659a6',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fcuda_41',['jagged_index_add_2d_forward_cuda',['../namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fv2_5fimpl_42',['jagged_index_add_2d_forward_v2_impl',['../namespacefbgemm__gpu.html#a8e1ed94256304ab16b948117d5315ee2',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fkernel_43',['jagged_index_add_2d_kernel',['../namespacefbgemm__gpu.html#ab571c6d5519c86bddfe58835c8209a4c',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_44',['jagged_index_select_2d',['../namespacefbgemm__gpu.html#aca95193cb0cc3db7030f18cb59c6cc33',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_2ecu_45',['jagged_index_select_2d_forward.cu',['../jagged__index__select__2d__forward_8cu.html',1,'']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fcpu_46',['jagged_index_select_2d_forward_cpu',['../namespacefbgemm__gpu.html#a71a54a14d90862afc8e5fe03e0c9ed8f',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fcuda_47',['jagged_index_select_2d_forward_cuda',['../namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fv2_5fimpl_48',['jagged_index_select_2d_forward_v2_impl',['../namespacefbgemm__gpu.html#acd9af0fd221ab3fc330ca9f278433a3f',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fkernel_49',['jagged_index_select_2d_kernel',['../namespacefbgemm__gpu.html#ab1228b502a424869c5a7353f9fe52316',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_50',['jagged_jagged_bmm',['../namespacefbgemm__gpu.html#ae94c97196a7c392695b64f0db906ff4c',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_51',['jagged_jagged_bmm_forward',['../namespacefbgemm__gpu.html#a5b01fcfb83764115f38eeab21c28a6a3',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_2ecu_52',['jagged_jagged_bmm_forward.cu',['../jagged__jagged__bmm__forward_8cu.html',1,'']]],
+  ['jagged_5fjagged_5fbmm_5fforward_5fcuda_53',['jagged_jagged_bmm_forward_cuda',['../namespacefbgemm__gpu.html#a0793a1a7b328d1351b6036d0be6a9c3d',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_5fmeta_54',['jagged_jagged_bmm_forward_meta',['../namespacefbgemm__gpu.html#a2722fce931f20d923aba071236be4c87',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fkernel_55',['jagged_jagged_bmm_kernel',['../namespacefbgemm__gpu.html#a33c7044a13254607610928c6825738b1',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5felementwise_5fdense_5foutput_5f_56',['jagged_jagged_elementwise_dense_output_',['../namespacefbgemm__gpu.html#a8fa5d329cfcc18c3304ba018919004ff',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_57',['jagged_slice',['../namespacefbgemm__gpu.html#ab17aab73b431292434fd0d642a538960',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_5fforward_5fcpu_58',['jagged_slice_forward_cpu',['../namespacefbgemm__gpu.html#a4e6521d00a6f81ad8ad7f7d38eef1aea',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_5fforward_5fcpu_5fkernel_59',['jagged_slice_forward_cpu_kernel',['../namespacefbgemm__gpu.html#a284b652fdac146671fc324ac57d2ad5d',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_60',['jagged_softmax',['../namespacefbgemm__gpu.html#a069ed261b53e7051b85f3e572cad7f7e',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_61',['jagged_softmax_backward',['../namespacefbgemm__gpu.html#a7ba518434a034920e1092bf6d73879fd',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_2ecu_62',['jagged_softmax_backward.cu',['../jagged__softmax__backward_8cu.html',1,'']]],
+  ['jagged_5fsoftmax_5fbackward_5fcuda_63',['jagged_softmax_backward_cuda',['../namespacefbgemm__gpu.html#a305d9969e73060e49580aab1456ceb35',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_5fkernel_64',['jagged_softmax_backward_kernel',['../namespacefbgemm__gpu.html#a7101ddaed8357d824a9eeeaff67e5c4c',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_5fmeta_65',['jagged_softmax_backward_meta',['../namespacefbgemm__gpu.html#aad25e4e44afa7169c17e48d726ee0477',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_66',['jagged_softmax_forward',['../namespacefbgemm__gpu.html#a023a8d9db48d27efcd2e77ede6366f5d',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_2ecu_67',['jagged_softmax_forward.cu',['../jagged__softmax__forward_8cu.html',1,'']]],
+  ['jagged_5fsoftmax_5fforward_5fcuda_68',['jagged_softmax_forward_cuda',['../namespacefbgemm__gpu.html#ab117510dd56fd42f3d774d22633b107f',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_5fmeta_69',['jagged_softmax_forward_meta',['../namespacefbgemm__gpu.html#ac14e78d89697f34bcaa7c0a725c8a04a',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fkernel_70',['jagged_softmax_kernel',['../namespacefbgemm__gpu.html#a20e3d96daba045e321717b025f4124cc',1,'fbgemm_gpu']]],
+  ['jagged_5ftensor_5fdispatch_5fdims_71',['JAGGED_TENSOR_DISPATCH_DIMS',['../sparse__ops__utils_8h.html#a8f3cc6f3a1a83750715b4ddcb228ca8b',1,'sparse_ops_utils.h']]],
+  ['jagged_5ftensor_5fops_2ecu_72',['jagged_tensor_ops.cu',['../jagged__tensor__ops_8cu.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fautograd_2ecpp_73',['jagged_tensor_ops_autograd.cpp',['../jagged__tensor__ops__autograd_8cpp.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fcpu_2ecpp_74',['jagged_tensor_ops_cpu.cpp',['../jagged__tensor__ops__cpu_8cpp.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fmeta_2ecpp_75',['jagged_tensor_ops_meta.cpp',['../jagged__tensor__ops__meta_8cpp.html',1,'']]],
+  ['jagged_5fto_5fpadded_5fdense_76',['jagged_to_padded_dense',['../group__jagged-tensor-ops-cpu.html#ga6d19e2c055144e4fe59b06999be34670',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_77',['jagged_to_padded_dense_backward',['../namespacefbgemm__gpu.html#a861454c4383e6a0869a6c007fc498eed',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_2ecu_78',['jagged_to_padded_dense_backward.cu',['../jagged__to__padded__dense__backward_8cu.html',1,'']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_5fmeta_79',['jagged_to_padded_dense_backward_meta',['../namespacefbgemm__gpu.html#a8663dcc9727a468507eb75a849ae5820',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_80',['jagged_to_padded_dense_forward',['../group__jagged-tensor-ops-cuda.html#gaffad7e38f6faf5f8365784fbf82a26f5',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_2ecu_81',['jagged_to_padded_dense_forward.cu',['../jagged__to__padded__dense__forward_8cu.html',1,'']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_5fmeta_82',['jagged_to_padded_dense_forward_meta',['../namespacefbgemm__gpu.html#a4fc6df6df430f9f9a20d7fe9d88dd009',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fmeta_83',['jagged_to_padded_dense_meta',['../namespacefbgemm__gpu.html#ae45c299345273bf31be20e4893f58c28',1,'fbgemm_gpu']]],
+  ['jagged_5funique_5findices_2ecu_84',['jagged_unique_indices.cu',['../jagged__unique__indices_8cu.html',1,'']]],
+  ['jagged_5funique_5findices_5fcuda_85',['jagged_unique_indices_cuda',['../namespacefbgemm__gpu.html#a006273b56cd5a2efd001ad71d801a551',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_b.js b/search/all_b.js
index 9ca306e65..edd3377ec 100644
--- a/search/all_b.js
+++ b/search/all_b.js
@@ -1,5 +1,13 @@
 var searchData=
 [
-  ['new_5fmanaged_5ftensor_0',['new_managed_tensor',['../group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3',1,'fbgemm_gpu']]],
-  ['new_5fvanilla_5fmanaged_5ftensor_1',['new_vanilla_managed_tensor',['../group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5',1,'fbgemm_gpu']]]
+  ['kbackwardmaxthreads_0',['kBackwardMaxThreads',['../embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7',1,'embedding_backward_template_helpers.cuh']]],
+  ['kcachelocationmissing_1',['kCacheLocationMissing',['../embedding__forward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321',1,'kCacheLocationMissing:&#160;embedding_forward_template_helpers.cuh'],['../embedding__backward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321',1,'kCacheLocationMissing:&#160;embedding_backward_template_helpers.cuh'],['../namespacefbgemm__gpu.html#a377d2c34d1f3becb19a91ea600e05321',1,'fbgemm_gpu::kCacheLocationMissing']]],
+  ['keyed_5fjagged_5findex_5fadd_5fdim1_5fkernel_2',['keyed_jagged_index_add_dim1_kernel',['../namespacefbgemm__gpu.html#a7d13c6946f45ae31d20aaecbd2316fec',1,'fbgemm_gpu']]],
+  ['keyed_5fjagged_5findex_5fselect_5fdim1_2ecu_3',['keyed_jagged_index_select_dim1.cu',['../keyed__jagged__index__select__dim1_8cu.html',1,'']]],
+  ['keyed_5fjagged_5findex_5fselect_5fdim1_5fkernel_4',['keyed_jagged_index_select_dim1_kernel',['../namespacefbgemm__gpu.html#a0a518ef8f85868c32ac832576f8504d9',1,'fbgemm_gpu']]],
+  ['keyed_5fjagged_5findex_5fselect_5fdim_5f1_5fgpu_5',['keyed_jagged_index_select_dim_1_gpu',['../namespacefbgemm__gpu.html#a50a64d97045199097d3ff83edaf56a1a',1,'fbgemm_gpu']]],
+  ['kforwardmaxthreads_6',['kForwardMaxThreads',['../embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459',1,'embedding_forward_template_helpers.cuh']]],
+  ['krowinitbuffersize_7',['kRowInitBufferSize',['../namespacessd.html#a03257f8b2bc7207cc362638228aeb2f6',1,'ssd']]],
+  ['kstackarraymaxdims_8',['kStackArrayMaxDims',['../sparse__ops__utils_8h.html#ab6183b92f9eac6ca49e3055d79dfc83d',1,'sparse_ops_utils.h']]],
+  ['kwarpsize_9',['kWarpSize',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05',1,'kWarpSize:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5cb5e51b17eeacd9818bc06b9eb55ddd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5bf3f753d62805ba481f4394edfa3158',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e814e4e84507c4c3d932abf55dc8b86',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a1df9e821214c938534c26d9ad87c1cff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6c1937cacb2c930220dfb75c2ad2fdb4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a375f1380c0a43779a6521f855f7c90ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#ad74db204c21ce57463de29efd2b51c22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5f6257aba106ad398e4b4a75471a8642',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ad8b31de2b716f254b2d55b709a332afa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a4c8628eff4245612b72787529fa2588f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ae0f0975698d817274d5b21d1dd31285c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a2166d1c956baff37ca5f2aa75dd5d29e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a3bf7d511b93dad425030c52ff0b35378',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a33f0706d826f38b6f36f4657f5a4bbbd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ae5ffff834bcf0d76a398a76c06a9d01b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ab824e6081e4272e9f56dd57114a11d1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a0157d8084d739723c62bc11e05187901',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a5732b42f4e3be21733885ce73871b37a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a390d0e97c72c325e3497aeaa3226d527',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a64b75e41b7d50f479b37a8c9cf0c1bcd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a446498d5289ca85dd627faffea758f45',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#ad471b8ae6cce12a41ac160db1243f289',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#ae31ad4c12fc469e5ea516f04f158b98b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a445aa60d61ffd3755914ffcf55c1a6fa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a91f7f08a7ae090f72ea7236ba0fb5c96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a447c3f2918447f50e234bb7c3e2b1532',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a03451f7ef0e82d0861c795948f00bf9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#ad19427e173ef6c061d7a98427d69a595',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a067846db797129cc6a85a87a6009c288',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#acab5c90a244916d389e9273df81384ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a8c2c7cc342e76ed32a9621fd6bc6753e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6da3d4d33386cf358b201f5a9a2602bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a59dab5f4ff3072665da93792aa3f85e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#ae39679f36fe6a0b7b8846c79f69f4bf9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a74aa12547ff3a9b9787bcdffe7b95e71',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5e2c26bd8a7744de11021a9356b59a74',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a98c8243c5834d18ba31ffd8f3a570480',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a9ace33692ea18b9bd6c92308133c4499',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ad9f02bfae155a2b4114e80ed9ef6390c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a225fbb17a5d73ae68945ddba0baf3960',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac93d19a97b3d9f1b1ae742787b03d5ba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a78f61ea01f92fc50b78d776edda5691c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f1fea77b7579d1cab96be89c027396a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a5ebb0d91afb08ea0721308c278b18b89',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f21c580a600ad4f25aa58bbcae83e5b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a042eb088419228e49b76f7923732ed0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#acac50d0765417aed0ba2275ef09e7363',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ab528e6c3e784b1648ebe89230f6f864c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad07738475ef95243e6a5d08e8e6096f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ae4bb5bd4f1fe9caf6f7a1d3107a479ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a28bf244596f3c3376a70af53e767ed7d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a0386dbc79ea0aaacffbe7cf8cba78167',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a88a5089ba98be8ad981c0d2fd5c74657',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#ac768cc0753ab5318bbe47835d4f9fa9d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a557bbce544c0a0b3dd4036ec01b6df55',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a802903738d859e74795111ec77fb0268',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a8d14751fd1f29be0069e1a35e0f921e4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a1773883a254e0ab07fb0313e41e997d8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a735bf953224cfed630501bf38342b07c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a608b71f09301faa6ce5838495c9e8de1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a5860a2f37abc179f0358170ee6403905',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a21576335b9047871158e90e2032e8912',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a04bf660a884cfa9ce91901a66fd99f75',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abf0dc6720193f4ab9a278a95c495572d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2f8395d5782bc2895b99dde1a0a5ca20',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2bfd2c4264e14c4f64b737892c1f4f06',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a07612c8115947993a4f0659814bdb991',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a9ceb5776015ed4c35b0dabca7fa8f4c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#ae682ad60acd60875e5499ef3ba62ba8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af09531afc63fe34068a117835f5276e2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3fd0b06c245d1deda1dfd409ef777dbc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a0b140fe99d998657ba70d37cb96981ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a188fb685cd69453ab94f992332f523a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a336a999e1b383c51b25841fa00f768d4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a745a7f66bb6899e5071ee55e90f23368',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#af9137cfc1d9e0421323b78bf589c34fc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a440eee4271eb5f61b204de4ec66054d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acde8c89a937e31cb98aa026b261cfe23',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ab8e910b2c682642ac61185d1b155c5eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ad1d9234d02b6be2ab2bdc5f4a8dc5701',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acce157d175e9e72545e8784647a38511',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a377694b1c0ce71b8d0c56077a904f7d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8d2430849bd51fc5ad283d1a300cabba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8ecc1609ac62272a2c0f5a1e1cddbed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ab903a35e3bd981f1436d46179b87ecb9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a4074249c4919e43d534eb0904fa4693b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ac2f871ccb0e37e363f7b979d923f944d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ad39229402610f8c9069ea8a7e1c6a0ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a01c0225eea92b7b0403572335b1abc61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a3490c2bf081c92095011640fb03961b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a3f1c2f2aebc7a13ddade48d2a2f0301c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a023ead14754421961a4b473a3b1bb81c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a5ff2b2e15a95a8d176f99a8eebddf45d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a97cc1b7bcf350b322be5238011334085',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af13fd6356fec61b096f429f666c4d50a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a8ae09f234561f1e415ef920bbf6eba22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a96ca79bd9787eab9dfe57a09f61590db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af8966c1a682b91a466caa300f057d2cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#aea22f0f456a89d61d1a066e7b363f59a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a78184f7b8b96c9fc9daa6d61c6bf8b32',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a933ef9f4d58e4ecad71988cd6f5ad537',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af15cb1c5b6cddd5d3678e3cee0a6cefe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a11b62696a1fcc6753a62e4b7b78987a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0cb98e4afaf555388869ebe3242fc7d0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a2bcc4982507c7169f085b06d8bda77eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac58c7e73b10a41dc9f49d4e477b20fb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac7cbe79ba3521a4bbd4c14a74fd6adff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0e895892d276833086475c0e7f1b7927',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a1078e271f687367cefee7d0e75efe3d6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#acdc78be52effcf8cc2c910b822c3ee7a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#af8601ce12308ef84b4899504296ae6ce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a8b3df46fe1527fa468b07f9b7629420e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a7fda08a8c83a3557857418ea43e4dea3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#aa0685df0fb0a672d3d2237bd536db1b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#ac806eae9eee01106ea55ef146007dfe8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a06567b685179fac57c60d07bfc5596f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a8c8e7afc35b5a54e69b3826c35adf2de',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a621cee00cffc059f6e5dac1dae6c870a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a9cf51444fe766e08d86ec3b884680083',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a1f4c065ae0c477c9055f201ff1d77eeb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2431e3a9f193cb26104acb7111bb16e7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#ac73727b32e66331f5cfe9705c2bcf9da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#ab17cf37109f61a98a1e67e278282d410',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a56eec79755c7e031dac93d7fee216fcb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a9e80797bba1bde61de4e23580a123045',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2309228f9f01e4fcfd7620b415458f5a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a1edce0d6c349a03501ea2777a101af79',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a095215da51de608e36ba8292e72c72af',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#ab671eaaed996f9f41eca1f557abae645',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a508ae4c79692f2664971272e30d3fc2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a1ed3a6b528acb610a62f188de95ebc0d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4fb277896c516d3421f917fbbbbc10e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ac34e39eb121e260238cc9a54f2d13a85',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a761283af416d74a3f610cb64f134cbad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ab2bf567d2b9120f65832f9e8e227c3bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#af798849724e5b343ef0987b64245c41a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#af04ea470cdd8a07f331e1efbc90114d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ae6c1506493e5d8b4539080b206713dce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a0beafd356bf1cfb6ea68ff7e1bd2992b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a356f3f696dd24ffa3fcf741fd8cd2ce7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a36b2d055ae9089bfecce1598d5ee5734',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a5765c206de6271ac6019a718fd7ad6b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ae0f60eb17c2973c16120ac880fa1405c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a33f0017811260350774433a6b81f85ea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a929b3395fb702cbf1354da769ca55637',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a19a7ecd9eeedc4239cf1b987d3f4d15f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ab3795d6b83ee437c61880577c78b2273',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#afb2bcda34aa0401c61ef4fd5ebe0b090',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a025db262738d28e0f6d0073da9eecc1c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#ad312b70230d4098d8ac2747559c7f26d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a0b27ae9a200a1ece5394819d34ccab40',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ac9b1b580c02b691e732330917b4346b9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a234aa0426b89c62486c8f88fdd7722e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afa3433936e5b727b1211effc7414d937',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aea8e820a7a4bc3fe64bb6c818542a3aa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ad64afc5ea3a238f14048b1d678f617be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ac8f9bf44e289b97fd4b68b3ac86e5fa2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a3cf034bfeabf17e2c02ef5eff0e39d27',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ae9bd7c9d24668aa08267f29bcc8d579b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ac2f4c84a8e13733979d8c8eb160d8ab6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a9668523612cb73bdea52956fff1a645d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a36dbb2ed81d41998cd4ddd239f6e18ff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a47b1f486724dfb5ef0c59660725ba49e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af72ccb394ff0a9c8bad2415b26124ee8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af37b23a1376bb72a6936967e93403d29',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a839068bef278b0cf5184340361f2db61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af3b0b53e46e934265545fef179bc4a42',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a3be6a3a67f391545b95c03cdfeabab49',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a9e740e6e3df02da3c05d0dfd940a2793',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#acff100b57110e4d629c786c3535bf208',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a2992f3c3797e58777a7f7d6aff063137',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a88eb41bb17cb58eaf37c6e5cc0ae1bfe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abab241cb0bbbdda5a3d240feff95de96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a837a847bd0e24c4c323f60f3cd49bb93',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#ad25cc23c713ce4d2ce9a057d23d66b8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aa8a6cd9058bac3b6775b6057a8b0beb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a28402ef2cf3a1b34fdadac6a6ef06adf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a33595ad9426cb537c6e4e9c2bb0d1cfc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a28fd1bfeb870e4192c831675880469bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ab570073ba2f2dc988643433eb9ee56e3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a2543bb59812617ba91ec36256ea579b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ae0bf41c3a1fa62e4aacaf4dd6e3ba1ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a60837a52bb429e86372390ab093b5c3f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6a6e51dcbe4f354b395c5ef3a8632e9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#afcd6a68c14971422bbcac044bc2e5fe7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a0e9aa9538f85f1a20881b99a619ff138',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a021fc973b5fc3d624856c3095ea0d8c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a1a126c0d3c9315985228744121d10f65',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#aba4fc1bf5159b001bdbeaed09bac28cf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a87b68faad6789ef38e5ee96bdf0adadb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abb70eda92401330f9c430e33657f5390',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#accc2086d06273c59409c74b598e17066',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a331c0180e8dc65d864006a18ae10f3e7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a1da0aa99bcd3a3a2ad540eaba284bd08',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a46d814dea7a25a249b9e0fc0c82023ed',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a19120fdc3ff0a026755d36ddb40ff43b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a1d111c3d803b0ed234aec8f5604bec87',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7f28593d442951ae04e27670c892fdc9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a80acf7650ec2712ea7d51f7d5156fc39',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7643d87610f1fd256807566fcae51c36',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#ab9a28b117d8d2c802b31c3850cebf7ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a53612aafa2641dc1c70fc11355c354c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a459aacd66b48c479d5773c84d129086d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab8efedfe2eecb8e722290e8670b57be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aef14d493a157796b5d5b3708471dd5f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a1495ee920385d2c17517f402e4f2f1d3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a13fd2498aed38e9bc488bba7aed3c70c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#ae1896638d5d062dd4fdb76ea25fa25ad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aff46c2a59e01f53a86a7b0d79a618a13',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a0bf2b9756ea833bf245d6fd93a68bba2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a07fe51377b6ac8933fda5657824dfa00',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a0424cc55d1baf826ec4665dc699c0ee8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abe7a518fe77140a9f84658b9be73ca57',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a93379bd0b52108c09ce0c6012c1a0bc4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a9efa56f919a034ad1c2eb4339babfacd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#af1b7ece649e9d0dbeb4a372364cfbf54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a5be30952d02614260f81e9b29d17f767',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6c887e7cd209eff2be60616a0eb2ea9f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#aa6dac18027510aba99d797d8c340fa0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a1aa0bffadd8de61d9327613f1b0c3d8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a805ef69c6e5b5bbd4a5d70b053dc8940',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a67e2d754aeb8030c70dfdf94358cac76',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ab111a2635d39331e5dde581b2cf5ab40',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ac42deea1306a7165392cc02c0c962381',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a216facff7aab2092d3300f52f73f441c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a9a65221171b1118ec811d883a600b7eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a2dcf33b730969fab9d8d9e13f5812500',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1628e1fb812ec5d70a2a3701145ae3dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a3af1e6fa25253eb084459b3d13ebf58a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a5731f2347a6fc9cfce399131b7535c72',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1916dad21c1174ed094bf7cb9990674f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abcac665cc8837bd07d64ee1f1d22c9bd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1627d1331758cf0987f80b531597de96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#aa2f1fe9cdd926d486017e9c9e3ee401e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a58dd95b539386ce0756417ffa7e3c675',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a4ac5aa9e7a97b988f21d79f2c77e8a42',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6ad697b6cced262fbf9c5329af882295',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a946e1b9e34decc6ef732c17c06eaf67b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a99d2945d0e14c762a262971ad5cdddca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#ad3382f93d63430516e0fa4ee3dfcd35b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a88e9b91386946c328e4ea9cd1074af16',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a376fefbb04f4e4d081447881d6aa3ca7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a11b57ed4691d1c773211ef5481a6dd02',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a0e70fccd2a1e2a9e2135f0b38f7fb8b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2b831b47546fedc2c25d2ade8b88b756',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a189144e6ce32a982c752160cfb103ec8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#af70ed3aa3b3e9f4ef10054777ea73ab1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abb5bc6565be4b9b6cc47cb4ca0d02a12',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a1752a413ef2e5ee8694cbed313bd3c9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aafa7d80ed4b830a47066853afca5adb8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ab0ee6537f36eac8a7a5af1623b9034a1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12afc30313df2164ef2c299b47d3762f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ab41d9b72247799b42c181dc59e842a2f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a2aa1026f9d94c927bfdc7d12f23f8626',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a015143a1cf9641909ef5739492836ab9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#aac73098f12c44ace7bd0c6ed29d1acb5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#adde42935e2ebd0c4cbfb5a925c603d3c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ac9113b72a8883bfe52a840eaf6bf0bcc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a1a4b7c2d1fb4fe724a9ddcefe4a3ad96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a4d4d95ee827c360821c77e0f6a5b533c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ad6b46d8dad6badf1a2e13000e0809359',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a69800c08002e6a964629da3691cfa699',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ac0a2c283925ea0172a022b44ec4420ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6ec6ef39c438b48fc5ff99850376c2e2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a68d39c92f33a5fb23bf494df10381aa7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#aa9a73b585d5c585477687c3b42859fbf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a502058fc25fa19bb0cd2e7cfa440c82f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a157d6cc11ad0a2f4127709df3181d056',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#af6c8d616d0e8c2d6738c38fece880943',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#aa47b1b3531724ee008b8a88a913375d4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a0b393ddcfa07501c936c09103420a327',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac99cf2df0002f1359da1a71821a5d7a6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a16c1dd81db1a38927c5a39968b2a2047',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#adea97673f55b5d43fb1091e7cb082cae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac80ea89a8a915ac8a1a6eaee9bd3a921',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4b2cdd16081fdd55ef997fcba11943b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a929c9944210d7078c0bcc89ae2ad2239',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a942425624762de23778b8ea3b8da1267',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a006b3b6fd358ff41f9dad5c39f2cb330',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a81cb91d9b5c6ba53ca66e62ad21265d6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ac028b85ab4d730883ee7b170a11039da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a73f35746d0a9bed1751b964c07d2c3b6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ae5efcbb0aa7b60c29535ac9c49bbb00a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a3d28eecf8be5cfcbcd71fef6322ef6df',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a0e96ba84ab91aea304a2e6ac78eb1fa2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a96833312f1cb3bd4067a854dc1a85d9c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a1ce149ce2e815f85f42f779e853b6384',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a5e2d57ad35649098aac904f8acec4d7b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#ac8d5805872473e761a71634add6ae7b8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a873c28f5a06ab6135240b18b23aa17d5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a86ab9a70fb4459793418ac95f6844494',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#aa1d6f03c27aea0bad56e3d38003ffda0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a0e3cae02bd4631c5b65507b91c500606',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a7929e1f87db6d3d72cae3804c1aafef0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a0d5f1eb18d7aaf74fabc0d63a215062e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ae319b79d484f9cfb10ddf935cf3dce8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a50b88aba0d96371aba370d9894857aff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a24d7b65f902789f50e1a0fdc3c72da0e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#aba27e610941b3c6a9520a14a567022dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a2922d0a81b0f1a4427fde265b05427bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a261934c69234b20a2f19650fa88e4cd0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a60c7d08b38c83f34ba87438440f950e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ae3f8662de26a86a0e1e1612804f49b52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a3530c5b60b4dc3bc1fd5f0af31e32361',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ab4098b3e8ab8552ec947cbb52de77a0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc6e9b570bfaac7771adbc13408463be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ab2bfbf20e506af2d9ee18af83b527e5e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#aaccb85f565c3b1d5a36dbf413fe05ec4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a799bc0e6eb13b05b038c910b7a650bd8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ac2e2b47b2c51943f4ff8fabdfb57f270',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a026a0932fcb72fcf66460486db323e9f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a99db511954f4e0ced515daf371cda8da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6baf7387932e58b5a570e01ea0fb2638',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a1f859731d1effb901df0012fbdf35756',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a3451cc31def5c831a428e221f4713d57',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a55aad527eb01f16edb9ec021704e4a60',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a494688d7ae0362eb0e5aacbc0ecf19c7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a95227f34f2ab6c04dcaadd41e1886304',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a62e5730bd70e4665352946a17b3fd18a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a91027c49f28b9c30a8fe20c5ede43b4f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af003bb8591ecd9b6b755807f601cbde6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af9fea1c8c674df3acb9e76cafe6518fe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a5f06095eeec3319c0936d2a99a095054',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a30c5340455dedcd1684d0858738d7c9d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#ab753932a15b63161c3d38c683e2d290d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a874c752c07a36fb38f9476fe78a46735',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ab2c641791d87abe8e19dcee2b3726819',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a7e755382f2ce1290c7c3357ecc025b78',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a30b2c51012735e4ebe919dba89c4d8cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a365c2eb2cec39bb504cdae18934b89c3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a004e2b2b3ffa5c4c402b2f56fee16ce6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ae3be8dde6dfb4fe3ba1a815b319a2925',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ac5817730d59e634a76e7aafce41aaf26',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a93d410b588239e17ac8e10d7d6e291a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a4172fb110abe23887cdaf0536ef2bcaa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a03929e871fb455cace7f23efc0d24583',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a468a45d6ca5a19247698337fc33f435d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a184065748160f0c7788467d39b27f5d1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6a9022b14995bf97b8f204dc404e1e8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#aea5128dbea65fac0ceb8b42749f74099',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a8f1a8a90b130ae668e3b6b7947c6c4f5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a2e889d0595ab0362613d58e7ff8960b7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6014caa4aca0c9e7b583e71900a0a48c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a90005cd7c4e9aae8498fd1d938983179',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a384fb2660e3cb8a46cf1154d5b45bf2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a297213250dad534fbb5b3654e854f1a4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a012a4e2ee1f52bb243e5388eec3e8a5c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a0c3bd53d12b516a80478d5a9017a684b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#ab20ec4fe16b91aae91640b2dd5452ed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a843389bf3c054d1a20a6115d47d99cf7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ac79c384938b7bffef4943090b602ba5e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#aeac8eff5cada3efbb3674213a5f42bc9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#afbd549d3981439a47fb0c3811e9eacf4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a5f6a21f619bb88465b760c5556fe6f1b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ab03dcc766f91725239b7737cee2b194d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a2b9bc69930f735395605b0b91203d7a5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6d5664cd6fa11c72a6de5f652e0aec5d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#af412ff33330b1349cbf7c2a33e58f9a7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abcba604787cbdb187f05ab27324d67f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a33f05c8d5a2149e88f0c5a0a446357c2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#ad387d04e602a3a29f7b44eaeb1edb9fa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a9cd29bb0dd406092916c5eb0605aaf0d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a7b5add21eacc916018bb3b4e0fd96436',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a5da06cf5b2fca41ca811bae68efd4049',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a853a5012db3ca2150440460e10d486ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#af1c9033199b40adc628848b21f60b950',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0d5d4738a27dacbbecc699b0297a6331',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a260b636a6d13f307a286c4b24b47a1cc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a05a2693fb5198654434e63ef4a07981e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#ad178df90f04b6ef9c3c907c699042d8e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a04d2d84d9856aa9de1f36e1813d4c172',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0c158805e4537d8825326a3ecddf9c9c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#ac6a60f786cbc800c9b675f386c1014ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a91f984a560c40dcae1abbb2391fa2fda',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6c5b8de0acb5391f4dc4172ce5ca094e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#afb504ea4eac563c64b42343e986a7847',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a3c2fb3ecac9e0bd458fbd1023025d5d5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6dfe39e1df2bced46b2e0991e3435be9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#aed82b2485ec72bfc56b2fae686d062f0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ac3a5c0e1adaae87917f2645e6a2afa46',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a54694cb47dc38390f1b301aa039cb31d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a9c2f7f4369735aa317a88c819b378f43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a188fb685cd69453ab94f992332f523a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#ae079dac6052edf65f8a39b4fd9de7c70',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a745a7f66bb6899e5071ee55e90f23368',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#af9137cfc1d9e0421323b78bf589c34fc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a440eee4271eb5f61b204de4ec66054d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acde8c89a937e31cb98aa026b261cfe23',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ab8e910b2c682642ac61185d1b155c5eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ad1d9234d02b6be2ab2bdc5f4a8dc5701',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ae5465342deb9e71765693c8929b5f475',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a377694b1c0ce71b8d0c56077a904f7d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8d2430849bd51fc5ad283d1a300cabba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8ecc1609ac62272a2c0f5a1e1cddbed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ab903a35e3bd981f1436d46179b87ecb9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a4074249c4919e43d534eb0904fa4693b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a77fbe03e0ff353a2ebe490cf97f0c353',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ad39229402610f8c9069ea8a7e1c6a0ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a01c0225eea92b7b0403572335b1abc61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a3490c2bf081c92095011640fb03961b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a3f1c2f2aebc7a13ddade48d2a2f0301c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a023ead14754421961a4b473a3b1bb81c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a5ff2b2e15a95a8d176f99a8eebddf45d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a4f470748a75cfc59c5c7a0cb577289f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af13fd6356fec61b096f429f666c4d50a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a8ae09f234561f1e415ef920bbf6eba22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a96ca79bd9787eab9dfe57a09f61590db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af8966c1a682b91a466caa300f057d2cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#aea22f0f456a89d61d1a066e7b363f59a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a22292529eb85249ba3bec7be758eebee',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a933ef9f4d58e4ecad71988cd6f5ad537',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af15cb1c5b6cddd5d3678e3cee0a6cefe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a11b62696a1fcc6753a62e4b7b78987a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0cb98e4afaf555388869ebe3242fc7d0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac0e36eb9e678f52e0561366229ecc4bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac58c7e73b10a41dc9f49d4e477b20fb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac7cbe79ba3521a4bbd4c14a74fd6adff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0e895892d276833086475c0e7f1b7927',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#affa3d280e56d69dbe39ea3bda0bcba6e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a7f2d784a0f6604d457a71d725eca24ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abd72df618308d6a739f91188cc5a1e91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a5db669968a840fd6cd68feb612d416de',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a94192c3fad25107220bf7cf718abdfed',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a0dadc1a7dd7578c22f5d239047bf7794',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a48f4d0c7f7758b5149c9d96abb61354d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a173df29f55015b4b4d8c9cdda6986823',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#aed68dca4d92a97e556d3073cab88a18f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a23c47f9e7c8f8a011e9a2d3778e2a65b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a856011203b19087ab6f1eebb7a8f18dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a69682ffbf2a367fa7e6d25edd9cf1218',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a12192a01089a95a93f5a384e9faaa312',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a58f3e7232aae5283c177ee7305d1bede',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a7412bb61fd123be30b935508b1839d66',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#afd57c62802e581a57d2e9daa52b09e4b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5d3923934afd4c41777f94dd36798bb8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac0c8d3772833c3ef461a44cabc9cda70',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5b2d60d4092d3af5e898446d1ffc3282',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aed55f18c1fecec6d6de78577918449a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a240624068305d411db3cdece269f6a2f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6854bab8c0d96882e4f9f980880531bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a9ab47f5d78d1d005e9f8784e812589b0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#af7d6e1a2bc0d32d0273140358b977b4e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad94f32bbc65499df3140ee3a12f12dbc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a84246813bd816d0adfa4751b327dbfa6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a90ffe039f52ddd5cf5e1108e7116b612',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#af129bcfb9d742a9a531ee4c3324bdb9a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#add33ba4596f143bb11a12a3508c0fb32',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a7b80756a8fab65071212121bf535f2d3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#aef2fbd1a40bded32e9118172ea588823',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#aabf9c6be454bf78678fc82ba87ed2b56',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a2e2219247d875dadcb571833d8282ca4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6940aede0efad4a0cca521cfdcec433b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ac7273b842f26b655461dfe827e4bc669',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#aaea9d9291155e312439e673a39970cc3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a45a1b05c68acf892f30f7ee837bb5aac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a526a3a91d4d22f8f4b8b25d52ea7539c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae9fc0a17625be30b2c3e94857e45e660',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a7d36afee5962e7c2e645ed580a9293d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#af6ea5271fc0e7434bb952837a4ec992c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#adf897a86ff3ef489f638c5d6cd604fb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6562c95418573901d3dd3e933fdb1798',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2da0fed4926ad614ee0554b8f818854d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a29dc67ef45e2c108c079066771ca4b15',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a908dadafc7b1c847ac07f402090b784c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a861cd39a27db6459d3d308938724a605',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#aceb4cd33e669bb98a7d191fb45221a80',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a9a42f11861e28ce77032f8047e83ea11',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a8bdc52848ae2ccea30492b4414adb034',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a0c819af30fed201203e68ceda2eca173',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a0720d53a4c9644a99b5cbe9e245dc3e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#af0d4736eed64c8bbf3a20923bb9c29f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#ad54cfe3bdecfc6441753596772402ca3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a2503c0d4c5e56ba15bfb7df317dda0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6d8a94d5bd394aab6b93267e3f0f2673',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a5917f6544b279539f51ba07a7d4d5ca5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a160f8f69b25890024d8d91dd87bbba82',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64537991cc98a52cb2bd884dbcc7bebc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#ae0574dfcf396c58dc8863401720dacb5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6bb05de78f7804f75e027524d191e5da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64b45cd53c38d53cedf6f4d66afd11f5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a9d44bcd45f9e02788aecbf226dbeb110',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a1d850e642c167b5e60a73c88a47f7f16',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#adae5d509289eae4626e7cc6eda18efbb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aebc5dd156def696b75e9590fdd7e44f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a4e775aca46c2cf5dfe37c97a0c320eef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abff5c0eb0f3d6a4dda6f6a5f51450dad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a7cfbc77648395dd0be255b6c2a04797e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aedc7a4a2ea94e6294c49780531ce8562',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5d38c3b8f12784860c0d0219684a22f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5ba8347d410dea8ce7952d7e5674a053',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ad491955b35ee3fb84ecdbc35426aa9c6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ada25cfa4c47b6ce54c00b842e414e5cb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#af4e0c8de103d5b95b3930d72723dedde',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aa7f8ec16263de0ec18ba44144f3f6409',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ab49ef540e21a06c9366b7a4b1b643855',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aab891f89faefe34faf30508569d63250',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a9a34cc24631cc7850723f21d44ac9bb3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a0a8f9dbd0e03e001dc43109c9b58edca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a8f1dc526305df11d57d5151eb78864fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#acb04bf74aa1979914c837887050094ee',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a79789b33f1e3e7e2f3908b939ae1e44c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a3b929350b08473bf7001fb6e8d38f64d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a027461b35f0b0e8c2245ef80575fe911',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a81afc9990a7d79a97ddf8ee0bb84f62b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a98e60157f32325eabb7ce026f700e32f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6050e98a82b09a3401ba1bcefb21abdc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#acb1714d604a523f5860b4c87e669c715',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ab83eacf00da6299593ee678a4b1e4615',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a4682eb9fbf137eb4577349e11559ecd0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ab5dafd4069aae36629ecb34e3975ea6f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#aa223add1301373e53e5b0ac08530a54e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a46cd5ec5d4f141fe5dcce4a8b22a1aff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a8aee7d2ca70c048a87381106420a93b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ac111217914f0bc07a2ec19cf00f46b52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a1a5b4fc1cd662532df45be95fae00e34',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ae8e719bacb730ff6f6f24b072264fece',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#adc76a3911b3c75253490fa732520c59d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a0246985d6062109ceb9d0a316e236be9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ad84b0786ecfc63b8b6b3a1383dbfe719',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#aa5cf42df68862104a475751de18f2d7d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ad32698d0cc220a69f7ffe6cf58fe5389',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#af6476f9b0a8e869bb5f1fbc1c39714ca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac2742fc3885cf36bb8ac4d7d4c24587f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a7b4db1681ed1be00464c3420ff441efa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a050fc99733adcb785414bd0c401d02e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ae79041a9602287ab549b549edc4f5040',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a981ec80c80a0ca3713a250bca8dcfd2d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a8e5539e49116fc0d95e74b70fff7eb96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#af896552004ed24a4f6289bd6321b95b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a153506803483f7484c6fc69a32b06b26',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aae8702725dfe41086ad78bb86764b34c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#ad07aac3191ff79c34b89afd9b89305ad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#adf78b0255c91deececdee2d30eb7f2ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a3860c9b9fc99bf6f1e19426e6d95f473',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a57427b04d21bb9e1302a85d709f94e02',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aaa3e935211a7fd38509a279705c5e5d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a7ee0552285c492916b1c76b31630d3c2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ef721cf4ccbf7faeaad926427c279f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a0ab8a7e2535ae5a3f056f529bcb1071a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a573d877b87f31127000da9bc22ad74f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#afcba725b1740e61675c5148dd9523082',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a027faf7fa459ca567059607e155a1546',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#ac7a033e21d13e0bd2a2268a4086c9770',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#ab065602b705ef3209e6d4de9f8dc0bb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a4342e36e81769a5d3992a7c557cb4e0e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a88f0e0bc690728b1e246b8248e9ec6e5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#afb628f9293807019a85f62216802fb27',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a4cfe4909493e5c6c0b3272b407756da5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a54d7f4614b27377a702368d9be00913a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a8a9dfc0b7289bfa8ee20c3a9c89a1382',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a5e36f01e2e5309c8de784ae9cf8b6995',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae45afbdb3f525626eeb8ec0c6be41f24',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a067da40e6e91e38bb46e13bab2169087',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a9ddc1dda2eb92f1166514ddb7da1bbc4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a031019a7e2638f18e08649bd6c279449',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a63685bd7126cdab9a0d8e4046c3e150c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a623f10d789c87a085d7c83199ac22f55',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ab30ac9e21532c639d357440a7edfc7eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a3dfcd6c505c277727fdc5a5efd1f21d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ab0581905b4247bac67216a78dfb722c0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aa21811af7885f72fe15a805872bd5a22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a14fb66cd776fba62200b634101140f86',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aff669225134b913ac286c1517e039727',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a87b17b201934f903fd2f193ac6a71629',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#abdf19a2e8c33cb0148de770a95bd662c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a469aee03c0d8fde04842d8747ef880bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a3048e1d82f672e144f218a9bc1f02bba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ad6d957e4c772be151a4b6c0937b71e2c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a4199338fdc51c5f831d168e63d783674',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a83fe0c13753b93fbe0b623e8bc652721',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#aea91359dc803899d522a74120b6d587c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a2cae6fdef6f90d98293e7e6f2eda2138',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a254bf4fa577be3f3edb7bf1dc9339295',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ad9e0f41f3ef8ca4cd788578980ccd083',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0277f9514d8b9668290fe078c5ad155b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5da4584d7767e8c488e4e29780c3aadc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5ea57f49a9d1efbc601b256ec5d13107',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a93ac400107836c0de2730e3a54959ed6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0e17c23a544e4b4ebaf07d215ece084f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a51028935eee6951c1298eb5d7092d650',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#adfec29a5a30407f3b60408b80419baac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0566524005bbfc2c27eac06fe4ebe955',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a568c659233485f309357ee134d1b748f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae5b51047bc4a0305b636290e7ddb278a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a3262dbb14f77bf739b020bdf79075384',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0f68f3297710141bc57e677b3d0587ce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a4876b4f94d323f090efef96432fc27a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1c7d35447c029aba8ddce8e9532a8d82',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ad69828fa35cf5312392a5791a435ac3f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0209c0fd938024beedd0716523eaa090',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9461df0509fec5e584eaa309acb4e0ea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a95cb4e2cdf49f5f5ba2f9a2acf3ff32d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#af585b19bb7928041ac8b70d56c7d6f1a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a8c3130a42a235a75553eaf160ac657dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8bd2c5adf9e33805340e4717cd9f0617',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a3d0b2d3bd9c920851a41c71817e28378',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a436f00b93c571aa3159b822122e4e781',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a17466673ca73e70a4887999d2955aaf0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#aea632259492fcd4ba0011382bee2beea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a4458fec1221cc0c7df2c1ef8bef422db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#aaf16de5ee78d9de99a703cdbe61255c0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8835d1cabbeed24c96e827473542eea4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a931774f9fe3e608ee4b30ec8e200049b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a2463ea08e2eade6932bdc3b08dbf3f4b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abdcfee895dc0dbe60f3899820e3faef6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#afdce4c5ff535f039b96169a5441d66f6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#aefd9621d81effbb756e78929daae8517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a91968527cd3a341bbc8777ae41190d41',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ac9f0e82189d5fd39e1aed1f89eb7336d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a61ff627d873a281ecf852f217e944c4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#afe7f0771d29a6a9ffd897e23dd341d7c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ad96d48c6eacdc0589531c48472f370dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a82d9c13b59a58a367c962ccdaa95bc01',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ab46e47b9451a78d43c7c23cf897e9445',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#af359f9c87918957f14c927e52e0d719c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#af47656d04bdce098caf47b331b74fe2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a43cd667ed17b8606af1dd1f5027311a4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a99087a69215e3ecfff828e64866fb490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ad6141ba5c93e5aea872230ecd4a0d878',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a7bb186f4330ddb51696533419c414b5a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acf2c859f1eecda3ddf9ec37754afe3e4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a7745e0ade9aa98a7050c6a76c59e88bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a51039fcb60604faf673a12fc9962de52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a39c7a917fc74982eb89a2a6770d0be92',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a094950f659c8dd934ea88348ed79dd2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#af4df56b4d05360a4cc547377c34a79dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a69613a0e40ad1ddb76bcf494c6eba437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a039318e8b0ec66d135fcd3f9b16a4228',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ab89613a21534acb8fe6c89a570467067',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a3947e811d4918cac9bd3e70fcce80126',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]]
 ];
diff --git a/search/all_c.js b/search/all_c.js
index 1e64f383c..c4d1a28d5 100644
--- a/search/all_c.js
+++ b/search/all_c.js
@@ -1,5 +1,75 @@
 var searchData=
 [
-  ['operators_0',['operators',['../group__input-combine.html',1,'Combine Input Operators'],['../group__permute-pooled-embs-cpu.html',1,'CPU Permutation Operators'],['../group__cumem-utils.html',1,'CUDA Memorty Operators'],['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__permute-pooled-embs-gpu.html',1,'CUDA Permutation Operators'],['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__jagged-tensor-ops-cpu.html',1,'Jagged Tensor Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__merge-pooled-emb.html',1,'Merge Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
-  ['operators_20for_20cuda_1',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]]
+  ['l_0',['L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2',1,'L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2',1,'L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#a71a77dfc9561ca59031082dfd57dd5ca',1,'fbgemm_gpu::L']]],
+  ['launch_5fauc_5fkernel_1',['LAUNCH_AUC_KERNEL',['../metric__ops_8cu.html#af8d70229cb61aff5f2f2e8f1abb10440',1,'metric_ops.cu']]],
+  ['launch_5findex_5fselect_2',['LAUNCH_INDEX_SELECT',['../sparse__index__select_8cu.html#a501f87ecefcbe28091d9a1c48499d3f6',1,'sparse_index_select.cu']]],
+  ['launch_5fkernel_3',['LAUNCH_KERNEL',['../keyed__jagged__index__select__dim1_8cu.html#a2ffb148e7bce97b5375e01ac265cc967',1,'keyed_jagged_index_select_dim1.cu']]],
+  ['layout_20transformation_20cpu_20operators_4',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
+  ['layout_20transformation_20cuda_20operators_5',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]],
+  ['layout_5ftransform_5fops_2ecu_6',['layout_transform_ops.cu',['../layout__transform__ops_8cu.html',1,'']]],
+  ['layout_5ftransform_5fops_2ecuh_7',['layout_transform_ops.cuh',['../layout__transform__ops_8cuh.html',1,'']]],
+  ['layout_5ftransform_5fops_5fcpu_2ecpp_8',['layout_transform_ops_cpu.cpp',['../layout__transform__ops__cpu_8cpp.html',1,'']]],
+  ['layout_5ftransform_5fops_5fgpu_2ecpp_9',['layout_transform_ops_gpu.cpp',['../layout__transform__ops__gpu_8cpp.html',1,'']]],
+  ['ldg_10',['LDG',['../sparse__ops_2common_8cuh.html#a9e7ecd25c1168b19568b2ba40a731c39',1,'common.cuh']]],
+  ['learning_5frate_11',['learning_rate',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a205f082b0bb0cee9301dc4e5d0521b5c',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['left_12',['left',['../namespacefbgemm__gpu.html#ad8f5e19e19f12974c9713e920ec54331',1,'fbgemm_gpu']]],
+  ['length_5fto_5ffeature_5fidx_13',['length_to_feature_idx',['../namespacefbgemm__gpu.html#a10c64e822d3634da34b9bf1f0c38d757',1,'fbgemm_gpu']]],
+  ['lengths_14',['lengths',['../namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548',1,'fbgemm_gpu']]],
+  ['lengths_5faddrs_15',['lengths_addrs',['../namespacefbgemm__gpu.html#a2b15eac55dd0239102e264b41febb49f',1,'fbgemm_gpu']]],
+  ['lengths_5fend_16',['lengths_end',['../namespacefbgemm__gpu.html#a80de4cfcf0b435f1edbf9ba9cb999695',1,'fbgemm_gpu']]],
+  ['lengths_5fis_5flong_17',['lengths_is_long',['../namespacefbgemm__gpu.html#ad8b8d41e5b0a7f0f67d18d46f561eef8',1,'fbgemm_gpu']]],
+  ['lengths_5foffsets_18',['lengths_offsets',['../namespacefbgemm__gpu.html#ab245b3e7b831d8e003a353250359843d',1,'fbgemm_gpu']]],
+  ['lengths_5frange_19',['lengths_range',['../namespacefbgemm__gpu.html#a9599d315f833a6d562ee1d25d4ee5923',1,'fbgemm_gpu']]],
+  ['lengths_5frange_5fcuda_20',['lengths_range_cuda',['../namespacefbgemm__gpu.html#ace0a963a484e5501c50533122cdecc3c',1,'fbgemm_gpu']]],
+  ['lengths_5frange_5fout_21',['lengths_range_out',['../namespacefbgemm__gpu.html#a19280a435704ff4093b148460c37bc84',1,'fbgemm_gpu']]],
+  ['lengths_5fstart_22',['lengths_start',['../namespacefbgemm__gpu.html#a332f5a97c570870675755b52b91919d6',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5ffind_2ecu_23',['lfu_cache_find.cu',['../lfu__cache__find_8cu.html',1,'']]],
+  ['lfu_5fcache_5ffind_5funcached_5fcuda_24',['lfu_cache_find_uncached_cuda',['../namespacefbgemm__gpu.html#a9e8721a4003045038e10d3a4c8258c96',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5fpopulate_2ecu_25',['lfu_cache_populate.cu',['../lfu__cache__populate_8cu.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_2ecpp_26',['lfu_cache_populate_byte.cpp',['../lfu__cache__populate__byte_8cpp.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_2ecu_27',['lfu_cache_populate_byte.cu',['../lfu__cache__populate__byte_8cu.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_5fcpu_28',['lfu_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#a45bb3081a2688f09448ffda6bc5d5f2e',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_5fcuda_29',['lfu_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu'],['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu']]],
+  ['lfu_5fcache_5fpopulate_5fcuda_30',['lfu_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu'],['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu']]],
+  ['lfu_5fupdate_5fcounts_5fcuda_31',['lfu_update_counts_cuda',['../namespacefbgemm__gpu.html#aca510adc64caa635df004e9b419bbb1b',1,'fbgemm_gpu']]],
+  ['linear_5findex_32',['linear_index',['../namespacefbgemm__gpu.html#a177d197b75db75ee70711f48a28e1524',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_2ecpp_33',['linearize_cache_indices.cpp',['../linearize__cache__indices_8cpp.html',1,'']]],
+  ['linearize_5fcache_5findices_2ecu_34',['linearize_cache_indices.cu',['../linearize__cache__indices_8cu.html',1,'']]],
+  ['linearize_5fcache_5findices_5fcpu_35',['linearize_cache_indices_cpu',['../namespacefbgemm__gpu.html#a6eaeebeb996c343db6d076fce7952133',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_5fcuda_36',['linearize_cache_indices_cuda',['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor indices, at::Tensor offsets):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(Tensor cache_hash_size_cumsum, Tensor indices, Tensor offsets):&#160;linearize_cache_indices.cu']]],
+  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcpu_37',['linearize_cache_indices_from_row_idx_cpu',['../namespacefbgemm__gpu.html#a9c7ab59a89fd36f5c07b9c86bdc891c8',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcuda_38',['linearize_cache_indices_from_row_idx_cuda',['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor update_table_indices, at::Tensor update_row_indices):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(Tensor cache_hash_size_cumsum, Tensor update_table_indices, Tensor update_row_indices):&#160;linearize_cache_indices.cu']]],
+  ['links_39',['Links',['../topology__utils_8h.html#a434a916b92f4caf48f14d480c6aa845a',1,'topology_utils.h']]],
+  ['list_5fid_40',['list_id',['../namespacefbgemm__gpu.html#a07403af74afe12cdace7e1ec4ff38e72',1,'fbgemm_gpu']]],
+  ['load_41',['load',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_weight_row.html#a889b0ea41fd15897021ab06b2d62bf29',1,'fbgemm_gpu::WeightRow::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b08d5d5c065fbbe307dfa9237f58dc7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad300c1cf97abb3337915a7b9616b371e',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a86807843e011cecc10c8f37761f5fc20',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::load()']]],
+  ['load_5fd_42',['load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67',1,'load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67',1,'load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['load_5fd_43',['load_d',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739',1,'load_d:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739',1,'load_d:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['load_5fqparams_44',['load_qparams',['../structfbgemm__gpu_1_1_weight_row.html#a5f3a7bac9f71533d09bb41e67708ffc2',1,'fbgemm_gpu::WeightRow']]],
+  ['load_5fqparams_5ffrom_5frow_45',['load_qparams_from_row',['../namespacefbgemm__gpu.html#a003948b9ad61509936564075f2cead23',1,'fbgemm_gpu']]],
+  ['loaded_5fvals_46',['loaded_vals',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a57864e02cf856e5c64f95a762c18151f',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::loaded_vals'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a6de86c6a3f25c34f8b13752e8042ea2e',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::loaded_vals']]],
+  ['log2_5fcalc_47',['log2_calc',['../structlog2__calc.html',1,'']]],
+  ['log2_5fcalc_5f_48',['log2_calc_',['../structlog2__calc__.html',1,'']]],
+  ['log2_5fcalc_5f_3c_200_20_3e_49',['log2_calc_&lt; 0 &gt;',['../structlog2__calc___3_010_01_4.html',1,'']]],
+  ['logit_5fdata_50',['logit_data',['../namespacefbgemm__gpu.html#a666f6d4fb27d254047edf38944a98e81',1,'fbgemm_gpu']]],
+  ['lookup_5fbatched_5funary_5fembedding_5ffunction_51',['lookup_batched_unary_embedding_function',['../namespacefbgemm__gpu.html#a74ffde7bbe921424bef364880c5d57ea',1,'fbgemm_gpu']]],
+  ['lru_5fcache_5ffind_2ecu_52',['lru_cache_find.cu',['../lru__cache__find_8cu.html',1,'']]],
+  ['lru_5fcache_5ffind_5funcached_5fcuda_53',['lru_cache_find_uncached_cuda',['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(at::Tensor unique_indices, at::Tensor unique_indices_length, int64_t max_indices, at::Tensor lxu_cache_state, int64_t time_stamp, at::Tensor lru_state, bool gather_cache_stats, at::Tensor uvm_cache_stats, bool lock_cache_line, at::Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu'],['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(Tensor unique_indices, Tensor unique_indices_length, int64_t max_indices, Tensor lxu_cache_state, int64_t time_stamp, Tensor lru_state, bool gather_cache_stats, Tensor uvm_cache_stats, bool lock_cache_line, Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu']]],
+  ['lru_5fcache_5fpopulate_2ecu_54',['lru_cache_populate.cu',['../lru__cache__populate_8cu.html',1,'']]],
+  ['lru_5fcache_5fpopulate_5fbyte_2ecpp_55',['lru_cache_populate_byte.cpp',['../lru__cache__populate__byte_8cpp.html',1,'']]],
+  ['lru_5fcache_5fpopulate_5fbyte_2ecu_56',['lru_cache_populate_byte.cu',['../lru__cache__populate__byte_8cu.html',1,'']]],
+  ['lru_5fcache_5fpopulate_5fbyte_5fcpu_57',['lru_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#a8d6ac45089730a607c2a46a265ac8b7b',1,'fbgemm_gpu']]],
+  ['lru_5fcache_5fpopulate_5fbyte_5fcuda_58',['lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11',1,'lru_cache_populate_byte_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate__byte_8cu.html#a53a2183d85282ab5726018767388efe8',1,'lru_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, int64_t time_stamp, Tensor lru_state, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lru_cache_populate_byte.cu']]],
+  ['lru_5fcache_5fpopulate_5fcuda_59',['lru_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06',1,'lru_cache_populate_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, bool stochastic_rounding, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; at::Tensor &gt; lxu_cache_locking_counter):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate_8cu.html#ab841aec9d8660e547e492948a2ee9921',1,'lru_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, const int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, const int64_t time_stamp, Tensor lru_state, const bool stochastic_rounding, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; Tensor &gt; lxu_cache_locking_counter):&#160;lru_cache_populate.cu']]],
+  ['lt_60',['lt',['../structfbgemm__gpu_1_1_comparator.html#aff9ffad7ca52493418c969769327b704',1,'fbgemm_gpu::Comparator']]],
+  ['lxu_5fcache_2ecpp_61',['lxu_cache.cpp',['../lxu__cache_8cpp.html',1,'']]],
+  ['lxu_5fcache_2ecu_62',['lxu_cache.cu',['../lxu__cache_8cu.html',1,'']]],
+  ['lxu_5fcache_5fflush_5fcuda_63',['lxu_cache_flush_cuda',['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(at::Tensor uvm_weights, at::Tensor cache_hash_size_cumsum, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(Tensor uvm_weights, Tensor cache_hash_size_cumsum, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor lxu_cache_state, Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flocations_64',['lxu_cache_locations',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a3c502d4dedd432c8940a937269071ddc',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a04f448d8b284fc09ac62abe6b241bfb0',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8204f76fc5db4c5c7ac336538fa9da1f',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['lxu_5fcache_5flocations_5fupdate_5fcuda_65',['lxu_cache_locations_update_cuda',['../group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603',1,'lxu_cache_locations_update_cuda(at::Tensor lxu_cache_locations, at::Tensor lxu_cache_locations_new, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#ac602137fddc0c895b176d959fa3fa8db',1,'lxu_cache_locations_update_cuda(Tensor lxu_cache_locations, Tensor lxu_cache_locations_new, c10::optional&lt; Tensor &gt; num_uniq_cache_indices):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flocking_5fcounter_5fdecrement_5fcuda_66',['lxu_cache_locking_counter_decrement_cuda',['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flookup_5fcpu_67',['lxu_cache_lookup_cpu',['../namespacefbgemm__gpu.html#ab26f1a83ce47d5510deed9bc9e9d6d9a',1,'fbgemm_gpu']]],
+  ['lxu_5fcache_5flookup_5fcuda_68',['lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f',1,'lxu_cache_lookup_cuda(at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices, c10::optional&lt; at::Tensor &gt; lxu_cache_locations_output):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#a083f4fd1219188cc40036595fa6921ab',1,'lxu_cache_lookup_cuda(const Tensor linear_cache_indices, const Tensor lxu_cache_state, const int64_t invalid_index, const bool gather_cache_stats, const c10::optional&lt; Tensor &gt; uvm_cache_stats, const c10::optional&lt; Tensor &gt; num_uniq_cache_indices, const c10::optional&lt; Tensor &gt; lxu_cache_locations_output):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5fparams_69',['LXU_CACHE_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d',1,'LXU_CACHE_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d',1,'LXU_CACHE_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['lxu_5fcache_5fweights_70',['lxu_cache_weights',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1d665aaf5a0d98bca13be6c158653005',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2581c8ea9d11ed091efe32b3ec6d2920',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#aac2986832e167da4c333ea92ea3deff2',1,'lxu_cache_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['lxu_5fparams_5fcnt_71',['LXU_PARAMS_CNT',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;embedding_forward_split_kernel_v2_template.cu']]]
 ];
diff --git a/search/all_d.js b/search/all_d.js
index 12d4e8ad5..f89e18a2b 100644
--- a/search/all_d.js
+++ b/search/all_d.js
@@ -1,4 +1,54 @@
 var searchData=
 [
-  ['permutation_20operators_0',['permutation operators',['../group__permute-pooled-embs-cpu.html',1,'CPU Permutation Operators'],['../group__permute-pooled-embs-gpu.html',1,'CUDA Permutation Operators']]]
+  ['main_0',['main',['../_c_make_c_compiler_id_8c.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;CMakeCXXCompilerId.cpp'],['../verify__fp16__stochastic__benchmark_8cu.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;verify_fp16_stochastic_benchmark.cu']]],
+  ['make_5fpacked_5ftensor_5faccessor32_1',['make_packed_tensor_accessor32',['../fbgemm__tensor__accessor_8h.html#ae5c092ed88e41832d415d06d837889b3',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpacked_5ftensor_5faccessor64_2',['make_packed_tensor_accessor64',['../fbgemm__tensor__accessor_8h.html#add453d9931017b7ca11b84095566ae26',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpacked_5ftensor_5faccessor_5facc_5ftype_5fbase_3',['MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE',['../fbgemm__tensor__accessor_8h.html#ae2a2547758e08761f973874a074b4fc1',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpacked_5ftensor_5faccessor_5fbase_4',['MAKE_PACKED_TENSOR_ACCESSOR_BASE',['../fbgemm__tensor__accessor_8h.html#ad5bf508fef6a8c9528a8f1c316bfd491',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpta_5facc_5fwith_5fname_5',['MAKE_PTA_ACC_WITH_NAME',['../fbgemm__tensor__accessor_8h.html#a23a5f2ae4f72b11bd67c678ae14d9af7',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpta_5fwith_5fname_6',['MAKE_PTA_WITH_NAME',['../fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fzero_5ffloat2_7',['make_zero_float2',['../namespacefbgemm__gpu.html#a25e94d75c07b4c2bc5427fe771f2d60d',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat4_8',['make_zero_float4',['../namespacefbgemm__gpu.html#afca9b335bed360fc1ec3e239183a792f',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat8_9',['make_zero_float8',['../namespacefbgemm__gpu.html#a66822cc23f92dbb8c18c596511b2a917',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat_5f16_10',['make_zero_float_16',['../namespacefbgemm__gpu.html#a7dcc205dbf44fb2e80d62bf47eb6c4c4',1,'fbgemm_gpu']]],
+  ['managed_11',['MANAGED',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194af59a25f2594f469f0bfccad7f8f13744',1,'fbgemm_gpu']]],
+  ['managed_5fcaching_12',['MANAGED_CACHING',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194a3664f93edf39a3e7e0a84f3cefb624a6',1,'fbgemm_gpu']]],
+  ['mask_13',['mask',['../jagged__tensor__ops_2common_8cuh.html#a7d162c8b2172ea2cb7a10852acacc635',1,'common.cuh']]],
+  ['masked_5findex_5fput_5fbyte_5fcuda_14',['masked_index_put_byte_cuda',['../ssd__split__table__batched__embeddings_8cpp.html#ac6846069e59fcf7c6fad94b1321b0dd0',1,'ssd_split_table_batched_embeddings.cpp']]],
+  ['masked_5findex_5fput_5fcuda_15',['masked_index_put_cuda',['../ssd__split__embeddings__cache__cuda_8cu.html#a8a561f5585f09252076650c0d34457d7',1,'masked_index_put_cuda(Tensor self, Tensor indices, Tensor values, Tensor count):&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__table__batched__embeddings_8cpp.html#a8a561f5585f09252076650c0d34457d7',1,'masked_index_put_cuda(Tensor self, Tensor indices, Tensor values, Tensor count):&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['masked_5fselect_5fjagged_5f1d_16',['masked_select_jagged_1d',['../namespacefbgemm__gpu.html#a0223abaee318471a5e42318a1b7056b6',1,'fbgemm_gpu']]],
+  ['max_17',['max',['../fbgemm__cuda__utils_8cuh.html#affe776513b24d84b39af8ab0930fef7f',1,'max:&#160;fbgemm_cuda_utils.cuh'],['../namespacefbgemm__gpu.html#a5f0a51933b0e3b1a96d8806d702ff82e',1,'fbgemm_gpu::max()']]],
+  ['max_5fb_18',['MAX_B',['../split__embeddings__utils_8cuh.html#a8fe8da855c3ca31f1825ef6779aa2458',1,'split_embeddings_utils.cuh']]],
+  ['max_5fd_19',['max_D',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['max_5fd_5fcache_20',['max_D_cache',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['max_5felements_5fper_5fthread_21',['MAX_ELEMENTS_PER_THREAD',['../namespacefbgemm__gpu.html#af75fe947c4a976895a9fb2c7501439b1',1,'fbgemm_gpu']]],
+  ['max_5fentries_5fper_5fblock_22',['MAX_ENTRIES_PER_BLOCK',['../metric__ops_8cu.html#a9c50cd9bc9f8be967692db87d6fdf57f',1,'metric_ops.cu']]],
+  ['max_5fnorm_23',['max_norm',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5dad34a0e8f59dfa6c15365b5f987ba6',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['max_5ft_24',['MAX_T',['../split__embeddings__utils_8cuh.html#a83944439cec525d70fcf8281a639760d',1,'split_embeddings_utils.cuh']]],
+  ['mean_25',['MEAN',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5da4ea6d1161ea24d7599365f574aff6610',1,'fbgemm_gpu']]],
+  ['mean_5fpooling_26',['mean_pooling',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['memory_20operators_27',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['memory_5futils_2ecpp_28',['memory_utils.cpp',['../memory__utils_8cpp.html',1,'']]],
+  ['memory_5futils_2ecu_29',['memory_utils.cu',['../memory__utils_8cu.html',1,'']]],
+  ['memory_5futils_5fops_2ecpp_30',['memory_utils_ops.cpp',['../memory__utils__ops_8cpp.html',1,'']]],
+  ['memory_5futils_5fops_2ecu_31',['memory_utils_ops.cu',['../memory__utils__ops_8cu.html',1,'']]],
+  ['memory_5futils_5fops_5fcpu_2ecpp_32',['memory_utils_ops_cpu.cpp',['../memory__utils__ops__cpu_8cpp.html',1,'']]],
+  ['merge_20operators_33',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]],
+  ['merge_5fpooled_5fembedding_5fops_5fcpu_2ecpp_34',['merge_pooled_embedding_ops_cpu.cpp',['../merge__pooled__embedding__ops__cpu_8cpp.html',1,'']]],
+  ['merge_5fpooled_5fembedding_5fops_5fgpu_2ecpp_35',['merge_pooled_embedding_ops_gpu.cpp',['../merge__pooled__embedding__ops__gpu_8cpp.html',1,'']]],
+  ['merge_5fpooled_5fembeddings_36',['merge_pooled_embeddings',['../namespacefbgemm__gpu.html#a25ca3ce57c9101b878431d46cc049b50',1,'fbgemm_gpu']]],
+  ['merge_5fpooled_5fembeddings_2eh_37',['merge_pooled_embeddings.h',['../merge__pooled__embeddings_8h.html',1,'']]],
+  ['merge_5fpooled_5fembeddings_5fcpu_38',['merge_pooled_embeddings_cpu',['../namespacefbgemm__gpu.html#aad2aea0289bc3c5d135846ee32e0638c',1,'fbgemm_gpu']]],
+  ['metric_5fops_2ecu_39',['metric_ops.cu',['../metric__ops_8cu.html',1,'']]],
+  ['metric_5fops_2eh_40',['metric_ops.h',['../metric__ops_8h.html',1,'']]],
+  ['metric_5fops_5fhost_2ecpp_41',['metric_ops_host.cpp',['../metric__ops__host_8cpp.html',1,'']]],
+  ['min_42',['min',['../fbgemm__cuda__utils_8cuh.html#ac6afabdc09a49a433ee19d8a9486056d',1,'min:&#160;fbgemm_cuda_utils.cuh'],['../namespacefbgemm__gpu.html#a5b62c5028106dcf10b450a8f178338ad',1,'fbgemm_gpu::min()']]],
+  ['mod_43',['Mod',['../classfbgemm__gpu_1_1_fixed_divisor.html#a604d46db75c43e0cd210e5b2ab2bc7e6',1,'fbgemm_gpu::FixedDivisor']]],
+  ['momentum1_5fdev_44',['momentum1_dev',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af9476d367260e52c6a3bd31824072c06',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5foffsets_45',['momentum1_offsets',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afd2978ce7ef7477233a8bda0aacde4e2',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5fplacements_46',['momentum1_placements',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a10602f96a8b9264528834b6a1763ffb1',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5fuvm_47',['momentum1_uvm',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3f5ed4cb8fcb526d7476413516fd546f',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['mul_48',['mul',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::mul()']]],
+  ['mul_5f_49',['mul_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; float &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; double &gt;::mul_()']]],
+  ['my_5fsize_50',['my_size',['../namespacefbgemm__gpu.html#a726d1405842124631d2e9543e6abfd70',1,'fbgemm_gpu']]]
 ];
diff --git a/search/all_e.js b/search/all_e.js
index 7c6f6fc5f..4af6bb04a 100644
--- a/search/all_e.js
+++ b/search/all_e.js
@@ -1,5 +1,45 @@
 var searchData=
 [
-  ['quantization_20operators_20for_20cuda_0',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]],
-  ['quantize_20data_20cpu_20operators_1',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]]
+  ['n_0',['n',['../namespacefbgemm__gpu.html#a4e34aefb3cc5403a07c020131077100a',1,'fbgemm_gpu']]],
+  ['name_5f_1',['name_',['../classfbgemm__gpu_1_1enum__registration.html#a7dac8366c11fbcad2f49d85fe8fc4fbe',1,'fbgemm_gpu::enum_registration']]],
+  ['native_5fempty_5flike_2',['native_empty_like',['../namespacefbgemm__gpu.html#a2f18d44e708cafd185e02defd95fb774',1,'fbgemm_gpu']]],
+  ['nbit_3',['nbit',['../namespacenbit.html',1,'']]],
+  ['ndim_4',['ndim',['../struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9',1,'StackArray']]],
+  ['nearest_5frounding_5fvector_5',['nearest_rounding_vector',['../namespacefbgemm__gpu.html#a94744dd15c8d4ffa9c5cf581e499f1ca',1,'fbgemm_gpu::nearest_rounding_vector(dst_t *output, const Vec4T&lt; src_t &gt; &amp;value, const float2)'],['../namespacefbgemm__gpu.html#aa56064f3d743f7535d59a1baca06dc1f',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; float &gt; &amp;value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aefcbaad4af03b4a72b15ca0ca40bc50f',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; at::Half &gt; &amp;value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aa8fa436e2338f97218eff8a48c94d8a4',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; double &gt; &amp;value, const float2 qparams)']]],
+  ['new_5fhost_5fmapped_5ftensor_6',['new_host_mapped_tensor',['../group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17',1,'fbgemm_gpu']]],
+  ['new_5findices_5fdata_7',['new_indices_data',['../namespacefbgemm__gpu.html#a12ee89697c142bf6626fc9773b3784ce',1,'fbgemm_gpu']]],
+  ['new_5flengths_5fdata_8',['new_lengths_data',['../namespacefbgemm__gpu.html#a2590465d158f637aa65cb705ceff155d',1,'fbgemm_gpu']]],
+  ['new_5fmanaged_5ftensor_9',['new_managed_tensor',['../group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3',1,'fbgemm_gpu']]],
+  ['new_5fmanaged_5ftensor_5fmeta_10',['new_managed_tensor_meta',['../group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91',1,'fbgemm_gpu']]],
+  ['new_5foffsets_5fdata_11',['new_offsets_data',['../namespacefbgemm__gpu.html#ab36576a24b49bfce1e9b6ff66a37ebe1',1,'fbgemm_gpu']]],
+  ['new_5fpos_5fdata_12',['new_pos_data',['../namespacefbgemm__gpu.html#a1543754093f5b3f003f28b6120d4508f',1,'fbgemm_gpu']]],
+  ['new_5funified_5ftensor_13',['new_unified_tensor',['../group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f',1,'fbgemm_gpu']]],
+  ['new_5funified_5ftensor_5fcpu_14',['new_unified_tensor_cpu',['../namespacefbgemm__gpu.html#aad6847fe2dc2433889aeb2dddf14f496',1,'fbgemm_gpu']]],
+  ['new_5fvanilla_5fmanaged_5ftensor_15',['new_vanilla_managed_tensor',['../group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5',1,'fbgemm_gpu']]],
+  ['new_5fweights_5fdata_16',['new_weights_data',['../namespacefbgemm__gpu.html#a2aaf9a58df0549a13d01ab53cd60ddff',1,'fbgemm_gpu']]],
+  ['next_5f_17',['next_',['../classfbgemm__gpu_1_1enum__registration.html#a8797d90a1e9ec2163cb8192a962d06dd',1,'fbgemm_gpu::enum_registration']]],
+  ['next_5foffset_18',['next_offset',['../namespacefbgemm__gpu.html#ac588c52c993fa6f169cb54d418ea584c',1,'fbgemm_gpu']]],
+  ['node_19',['Node',['../topology__utils_8h.html#a659b93920c81116289ee7ff5d45f48c9',1,'topology_utils.h']]],
+  ['none_20',['NONE',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5dab50339a10e1de285ac99d4c3990b8693',1,'fbgemm_gpu']]],
+  ['num_5fargs_21',['NUM_ARGS',['../namespacefbgemm__gpu.html#a711d3a0cadc94f73da860c1ffd01e1b2',1,'fbgemm_gpu']]],
+  ['num_5fbins_22',['num_bins',['../namespacefbgemm__gpu.html#aff8ee4d321b4a815868fe53b25b8fe6b',1,'fbgemm_gpu']]],
+  ['num_5fcalls_23',['num_calls',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34',1,'fbgemm_gpu']]],
+  ['num_5fcols_5fgroup_24',['num_cols_group',['../namespacefbgemm__gpu.html#a2f734f38c3537666ae53e906e65c1a6e',1,'fbgemm_gpu']]],
+  ['num_5fconflict_5fmisses_25',['num_conflict_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6',1,'fbgemm_gpu']]],
+  ['num_5fconflict_5funique_5fmisses_26',['num_conflict_unique_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6',1,'fbgemm_gpu']]],
+  ['num_5flists_27',['num_lists',['../namespacefbgemm__gpu.html#a447e5ea8dc79992a05131d8803d2bf7e',1,'fbgemm_gpu']]],
+  ['num_5fnon_5fzero_5fcolumns_28',['num_non_zero_columns',['../structinternal_1_1_hyper_compressed_sparse_column.html#a601991d88e6582d3bdb8bba778842c25',1,'internal::HyperCompressedSparseColumn']]],
+  ['num_5foffsets_5fper_5fwarp_29',['NUM_OFFSETS_PER_WARP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af',1,'NUM_OFFSETS_PER_WARP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af',1,'NUM_OFFSETS_PER_WARP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fparams_30',['NUM_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5',1,'NUM_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5',1,'NUM_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5frequested_5findices_31',['num_requested_indices',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439',1,'fbgemm_gpu']]],
+  ['num_5fsegments_32',['num_segments',['../namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017',1,'fbgemm_gpu']]],
+  ['num_5fthreads_5fper_5fblock_33',['NUM_THREADS_PER_BLOCK',['../metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517',1,'metric_ops.cu']]],
+  ['num_5funique_5findices_34',['num_unique_indices',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc',1,'fbgemm_gpu']]],
+  ['num_5funique_5fmisses_35',['num_unique_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53',1,'fbgemm_gpu']]],
+  ['num_5fwarps_36',['NUM_WARPS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167',1,'NUM_WARPS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167',1,'NUM_WARPS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwarps_5ffor_5fsmall_5fl_37',['num_warps_for_small_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92',1,'num_warps_for_small_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92',1,'num_warps_for_small_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwarps_5fper_5frow_38',['num_warps_per_row',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9',1,'num_warps_per_row:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9',1,'num_warps_per_row:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwork_5frows_39',['num_work_rows',['../namespacefbgemm__gpu.html#aeb2ce03cab381b1393d4c7c355ef2286',1,'fbgemm_gpu']]],
+  ['numel_5f_40',['numel_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d',1,'fbgemm_gpu::TensorAccessorBase::numel_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::numel_']]],
+  ['nvml_5fcheck_41',['NVML_CHECK',['../topology__utils_8cpp.html#af1ec00426a14a4658189ab308ea76636',1,'topology_utils.cpp']]]
 ];
diff --git a/search/all_f.js b/search/all_f.js
index 202af0400..46737d9e0 100644
--- a/search/all_f.js
+++ b/search/all_f.js
@@ -1,5 +1,19 @@
 var searchData=
 [
-  ['sparse_20data_20cpu_20operators_0',['Sparse Data CPU Operators',['../group__sparse-data-cpu.html',1,'']]],
-  ['sparse_20data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]]
+  ['offset_5ftbe_5finput_5fcombine_5fwith_5flength_5fargs_0',['offset_tbe_input_combine_with_length_args',['../namespacefbgemm__gpu.html#ab6871043c7881b5434de1e8eea491c80',1,'fbgemm_gpu']]],
+  ['offsets_1',['offsets',['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647',1,'offsets:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024',1,'offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#aab1af2e6ba28faa781f71e91f2347d43',1,'offsets:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6ed0a81091088c3c07a10b7fd8e63358',1,'offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024',1,'offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da',1,'fbgemm_gpu::offsets']]],
+  ['offsets_5fdata_2',['offsets_data',['../namespacefbgemm__gpu.html#a66f41f5ea495c26af7e2007fe0a28edc',1,'fbgemm_gpu']]],
+  ['offsets_5frange_5fcpu_3',['offsets_range_cpu',['../namespacefbgemm__gpu.html#a5aff23a0a3b0bc872ba44a0045b6e350',1,'fbgemm_gpu']]],
+  ['offsets_5frange_5fcuda_4',['offsets_range_cuda',['../namespacefbgemm__gpu.html#a3d88da2f7a769565c9ebdc070467eabe',1,'fbgemm_gpu']]],
+  ['operator_5b_5d_5',['operator[]',['../classfbgemm__gpu_1_1_tensor_accessor.html#a72a3b6251f6388b00f3edcd8d3311600',1,'fbgemm_gpu::TensorAccessor::operator[](index_t i)'],['../classfbgemm__gpu_1_1_tensor_accessor.html#a16735630a1b17005797473122c151321',1,'fbgemm_gpu::TensorAccessor::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a00a4aa208155f5c8a633eddc32351081',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i)'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3b81b97c0e920adcd47b7f6a5b0af0cf',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ab6e8f8fe313b1de35e94636bdd4e34dd',1,'fbgemm_gpu::GenericPackedTensorAccessor::operator[](index_t i)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a6933e03eff2b2428f9eb67e597a520c1',1,'fbgemm_gpu::GenericPackedTensorAccessor::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3593eea2d954fec0db1139e509206816',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a07dee357cdcdf158224410aaf987e7d3',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i) const']]],
+  ['operators_6',['Operators',['../group__input-combine.html',1,'Combine Input Operators'],['../group__cumem-utils.html',1,'CUDA Memory Operators'],['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__jagged-tensor-ops-cpu.html',1,'Jagged Tensor Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__merge-pooled-emb.html',1,'Merge Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
+  ['operators_20cpu_7',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['operators_20cuda_8',['Operators CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
+  ['ops_5futils_2eh_9',['ops_utils.h',['../ops__utils_8h.html',1,'']]],
+  ['output_10',['output',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672',1,'output:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#af6e6ad15bb4078d9c64b33a85e9618ec',1,'output:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f',1,'output:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a511b9e94b01de29a6671f16533eaf6dd',1,'output:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa742bdb164d113128d3e9b155f95acfe',1,'output:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f',1,'output:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0',1,'fbgemm_gpu::output']]],
+  ['output_5fdata_11',['output_data',['../namespacefbgemm__gpu.html#a783fcd132908afcc711d1a7fb2cb51a7',1,'fbgemm_gpu']]],
+  ['output_5foffsets_12',['output_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a48df3803c4f164ff153d5348c6f8f10f',1,'output_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5',1,'fbgemm_gpu::output_offsets']]],
+  ['output_5fpermute_13',['output_permute',['../namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54',1,'fbgemm_gpu']]],
+  ['output_5fptrs_14',['output_ptrs',['../namespacefbgemm__gpu.html#a038ee34932113e6d3d38345920211f4c',1,'fbgemm_gpu']]],
+  ['output_5fvec_5ft_15',['output_vec_t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d',1,'output_vec_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d',1,'output_vec_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]]
 ];
diff --git a/search/classes_0.js b/search/classes_0.js
index bc3b5cb3a..1a304ee85 100644
--- a/search/classes_0.js
+++ b/search/classes_0.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['comparator_0',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]]
+  ['bitonicsort_0',['BitonicSort',['../structfbgemm__gpu_1_1_bitonic_sort.html',1,'fbgemm_gpu']]]
 ];
diff --git a/search/classes_1.js b/search/classes_1.js
new file mode 100644
index 000000000..bc3b5cb3a
--- /dev/null
+++ b/search/classes_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['comparator_0',['Comparator',['../structfbgemm__gpu_1_1_comparator.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_2.js b/search/classes_2.js
new file mode 100644
index 000000000..2ccbab8bb
--- /dev/null
+++ b/search/classes_2.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['defaultptrtraits_0',['DefaultPtrTraits',['../structfbgemm__gpu_1_1_default_ptr_traits.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_3.js b/search/classes_3.js
new file mode 100644
index 000000000..cddc09ee6
--- /dev/null
+++ b/search/classes_3.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['embeddingrocksdb_0',['EmbeddingRocksDB',['../classssd_1_1_embedding_rocks_d_b.html',1,'ssd']]],
+  ['enum_5fregistration_1',['enum_registration',['../classfbgemm__gpu_1_1enum__registration.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_4.js b/search/classes_4.js
new file mode 100644
index 000000000..11983cd4d
--- /dev/null
+++ b/search/classes_4.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['fixeddivisor_0',['FixedDivisor',['../classfbgemm__gpu_1_1_fixed_divisor.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_5.js b/search/classes_5.js
new file mode 100644
index 000000000..91451dbcb
--- /dev/null
+++ b/search/classes_5.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['genericpackedtensoraccessor_0',['GenericPackedTensorAccessor',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessor_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_1',['GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessorbase_2',['GenericPackedTensorAccessorBase',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessorbase_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_3',['GenericPackedTensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessorbase_3c_20t_2c_20n_2c_20defaultptrtraits_2c_20int64_5ft_20_3e_4',['GenericPackedTensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_6.js b/search/classes_6.js
new file mode 100644
index 000000000..984b6ce92
--- /dev/null
+++ b/search/classes_6.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['half4_0',['Half4',['../structfbgemm__gpu_1_1_half4.html',1,'fbgemm_gpu']]],
+  ['hypercompressedsparsecolumn_1',['HyperCompressedSparseColumn',['../structinternal_1_1_hyper_compressed_sparse_column.html',1,'internal']]]
+];
diff --git a/search/classes_7.js b/search/classes_7.js
new file mode 100644
index 000000000..2e4a34b1d
--- /dev/null
+++ b/search/classes_7.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['initializer_0',['Initializer',['../classssd_1_1_initializer.html',1,'ssd']]]
+];
diff --git a/search/classes_8.js b/search/classes_8.js
new file mode 100644
index 000000000..f0f450ab1
--- /dev/null
+++ b/search/classes_8.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['log2_5fcalc_0',['log2_calc',['../structlog2__calc.html',1,'']]],
+  ['log2_5fcalc_5f_1',['log2_calc_',['../structlog2__calc__.html',1,'']]],
+  ['log2_5fcalc_5f_3c_200_20_3e_2',['log2_calc_&lt; 0 &gt;',['../structlog2__calc___3_010_01_4.html',1,'']]]
+];
diff --git a/search/classes_9.js b/search/classes_9.js
new file mode 100644
index 000000000..a47d663bc
--- /dev/null
+++ b/search/classes_9.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['permutepooledembsfunction_0',['PermutePooledEmbsFunction',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html',1,'fbgemm_gpu']]],
+  ['permutepooledembsfunctionsplit_1',['PermutePooledEmbsFunctionSplit',['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_a.js b/search/classes_a.js
new file mode 100644
index 000000000..d863ea26d
--- /dev/null
+++ b/search/classes_a.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['rk_5fstate_0',['rk_state',['../structfbgemm__gpu_1_1rk__state.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_b.js b/search/classes_b.js
new file mode 100644
index 000000000..d53e0111c
--- /dev/null
+++ b/search/classes_b.js
@@ -0,0 +1,12 @@
+var searchData=
+[
+  ['sharedmemory_0',['SharedMemory',['../structfbgemm__gpu_1_1_shared_memory.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20double_20_3e_1',['SharedMemory&lt; double &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20float_20_3e_2',['SharedMemory&lt; float &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20int32_5ft_20_3e_3',['SharedMemory&lt; int32_t &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20int64_5ft_20_3e_4',['SharedMemory&lt; int64_t &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20vec4t_3c_20at_3a_3aacc_5ftype_3c_20double_2c_20true_20_3e_20_3e_20_3e_5',['SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html',1,'fbgemm_gpu']]],
+  ['sharedmemory_3c_20vec4t_3c_20at_3a_3aacc_5ftype_3c_20float_2c_20true_20_3e_20_3e_20_3e_6',['SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;',['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html',1,'fbgemm_gpu']]],
+  ['stackarray_7',['StackArray',['../struct_stack_array.html',1,'']]],
+  ['stochasticroundingrngstate_8',['StochasticRoundingRNGState',['../structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_c.js b/search/classes_c.js
new file mode 100644
index 000000000..c54250d05
--- /dev/null
+++ b/search/classes_c.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['tensoraccessor_0',['TensorAccessor',['../classfbgemm__gpu_1_1_tensor_accessor.html',1,'fbgemm_gpu']]],
+  ['tensoraccessor_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_1',['TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html',1,'fbgemm_gpu']]],
+  ['tensoraccessorbase_2',['TensorAccessorBase',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['tensoraccessorbase_3c_20t_2c_201_2c_20ptrtraits_2c_20index_5ft_20_3e_3',['TensorAccessorBase&lt; T, 1, PtrTraits, index_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'fbgemm_gpu']]],
+  ['tensoraccessorbase_3c_20t_2c_20n_2c_20defaultptrtraits_2c_20int64_5ft_20_3e_4',['TensorAccessorBase&lt; T, N, DefaultPtrTraits, int64_t &gt;',['../classfbgemm__gpu_1_1_tensor_accessor_base.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_d.js b/search/classes_d.js
new file mode 100644
index 000000000..74ebb7a20
--- /dev/null
+++ b/search/classes_d.js
@@ -0,0 +1,24 @@
+var searchData=
+[
+  ['vec4acct_0',['Vec4AccT',['../structfbgemm__gpu_1_1_vec4_acc_t.html',1,'fbgemm_gpu']]],
+  ['vec4stept_1',['Vec4StepT',['../structfbgemm__gpu_1_1_vec4_step_t.html',1,'fbgemm_gpu']]],
+  ['vec4stept_3c_20step_2c_20at_3a_3ahalf_20_3e_2',['Vec4StepT&lt; STEP, at::Half &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4stept_3c_20step_2c_20float_20_3e_3',['Vec4StepT&lt; STEP, float &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4stept_3c_20step_2c_20uint8_5ft_20_3e_4',['Vec4StepT&lt; STEP, uint8_t &gt;',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_5',['Vec4T',['../structfbgemm__gpu_1_1_vec4_t.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20at_3a_3abfloat16_20_3e_6',['Vec4T&lt; at::BFloat16 &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20at_3a_3ahalf_20_3e_7',['Vec4T&lt; at::Half &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20double_20_3e_8',['Vec4T&lt; double &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4t_3c_20float_20_3e_9',['Vec4T&lt; float &gt;',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html',1,'fbgemm_gpu']]],
+  ['vec4type_10',['Vec4Type',['../struct_vec4_type.html',1,'']]],
+  ['vec4type_3c_20at_3a_3ahalf_20_3e_11',['Vec4Type&lt; at::Half &gt;',['../struct_vec4_type_3_01at_1_1_half_01_4.html',1,'']]],
+  ['vec4type_3c_20float_20_3e_12',['Vec4Type&lt; float &gt;',['../struct_vec4_type_3_01float_01_4.html',1,'']]],
+  ['vec4type_3c_20uint8_5ft_20_3e_13',['Vec4Type&lt; uint8_t &gt;',['../struct_vec4_type_3_01uint8__t_01_4.html',1,'']]],
+  ['vecnt_14',['VecNT',['../structfbgemm__gpu_1_1_vec_n_t.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_201_2c_20primitivetype_3a_3afp_20_3e_15',['VecNT&lt; 1, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_2016_2c_20primitivetype_3a_3aint_20_3e_16',['VecNT&lt; 16, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_202_2c_20primitivetype_3a_3afp_20_3e_17',['VecNT&lt; 2, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_204_2c_20primitivetype_3a_3afp_20_3e_18',['VecNT&lt; 4, PrimitiveType::FP &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_204_2c_20primitivetype_3a_3aint_20_3e_19',['VecNT&lt; 4, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]],
+  ['vecnt_3c_208_2c_20primitivetype_3a_3aint_20_3e_20',['VecNT&lt; 8, PrimitiveType::INT &gt;',['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/classes_e.js b/search/classes_e.js
new file mode 100644
index 000000000..06bb6ac7f
--- /dev/null
+++ b/search/classes_e.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['weightrow_0',['WeightRow',['../structfbgemm__gpu_1_1_weight_row.html',1,'fbgemm_gpu']]]
+];
diff --git a/search/defines_0.js b/search/defines_0.js
new file mode 100644
index 000000000..e7fdd53bd
--- /dev/null
+++ b/search/defines_0.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['_5f_5fhalf2_5fto_5fui_0',['__HALF2_TO_UI',['../fbgemm__cuda__utils_8cuh.html#ab78d230e0bbda883a8f34ca1e31d0929',1,'fbgemm_cuda_utils.cuh']]],
+  ['_5f_5fhas_5finclude_1',['__has_include',['../_c_make_c_compiler_id_8c.html#ae5510d82e4946f1656f4969911c54736',1,'__has_include:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#ae5510d82e4946f1656f4969911c54736',1,'__has_include:&#160;CMakeCXXCompilerId.cpp']]],
+  ['_5fdispatch_5femb_5fcache_5ftypes_2',['_DISPATCH_EMB_CACHE_TYPES',['../dispatch__macros_8h.html#a8a3aad8de22734b1397d813a855528e1',1,'dispatch_macros.h']]]
+];
diff --git a/search/defines_1.js b/search/defines_1.js
new file mode 100644
index 000000000..bad99df52
--- /dev/null
+++ b/search/defines_1.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['acc_5fadd_5for_5ffma_0',['ACC_ADD_OR_FMA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ada15471a8b1da6a3a43b940916fea71e',1,'ACC_ADD_OR_FMA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['architecture_5fid_1',['ARCHITECTURE_ID',['../_c_make_c_compiler_id_8c.html#aba35d0d200deaeb06aee95ca297acb28',1,'ARCHITECTURE_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#aba35d0d200deaeb06aee95ca297acb28',1,'ARCHITECTURE_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['at_5fx_2',['AT_X',['../fbgemm__tensor__accessor_8h.html#ac7d28de6473a715c6228c08b391476bb',1,'fbgemm_tensor_accessor.h']]]
+];
diff --git a/search/defines_10.js b/search/defines_10.js
new file mode 100644
index 000000000..09f4f4599
--- /dev/null
+++ b/search/defines_10.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['x_0',['X',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#ae6cc33dae61d3333c3d2e6be5f9cf16e',1,'X:&#160;embedding_forward_quantized_split_nbit_host_template.cu']]]
+];
diff --git a/search/defines_11.js b/search/defines_11.js
new file mode 100644
index 000000000..ae5adc93e
--- /dev/null
+++ b/search/defines_11.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['y_0',['Y',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#acec51faeb0681c58de451cb9d59abe95',1,'Y:&#160;embedding_forward_quantized_split_nbit_host_template.cu']]]
+];
diff --git a/search/defines_2.js b/search/defines_2.js
new file mode 100644
index 000000000..b25e0482a
--- /dev/null
+++ b/search/defines_2.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['c_5fversion_0',['C_VERSION',['../_c_make_c_compiler_id_8c.html#adaee3ee7c5a7a22451ea25e762e1d7d5',1,'CMakeCCompilerId.c']]],
+  ['compiler_5fid_1',['COMPILER_ID',['../_c_make_c_compiler_id_8c.html#a81dee0709ded976b2e0319239f72d174',1,'COMPILER_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a81dee0709ded976b2e0319239f72d174',1,'COMPILER_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['cuda_5fcheck_2',['CUDA_CHECK',['../cuda__utils_8cuh.html#ad64d49299c3d240ae540a693ae38ca38',1,'cuda_utils.cuh']]],
+  ['cxx_5fstd_3',['CXX_STD',['../_c_make_c_x_x_compiler_id_8cpp.html#a34cc889e576a1ae6c84ae9e0a851ba21',1,'CMakeCXXCompilerId.cpp']]]
+];
diff --git a/search/defines_3.js b/search/defines_3.js
new file mode 100644
index 000000000..ba7645e60
--- /dev/null
+++ b/search/defines_3.js
@@ -0,0 +1,25 @@
+var searchData=
+[
+  ['dec_0',['DEC',['../_c_make_c_compiler_id_8c.html#ad1280362da42492bbc11aa78cbf776ad',1,'DEC:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#ad1280362da42492bbc11aa78cbf776ad',1,'DEC:&#160;CMakeCXXCompilerId.cpp']]],
+  ['decl_5fradix_5fsort_5fpairs_5ffn_1',['DECL_RADIX_SORT_PAIRS_FN',['../split__embeddings__utils_8cuh.html#a91fe9e10ff5c98fe4952c9c0986476b4',1,'split_embeddings_utils.cuh']]],
+  ['def_5fradix_5fsort_5fpairs_5ffn_2',['DEF_RADIX_SORT_PAIRS_FN',['../radix__sort__pairs_8cu.html#a4cf2c787c9111fdc77b98fcc9e690344',1,'radix_sort_pairs.cu']]],
+  ['device_5finline_3',['DEVICE_INLINE',['../fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d',1,'fbgemm_cuda_utils.cuh']]],
+  ['dispatch_5fdense_5fto_5fjagged_5fcase_4',['DISPATCH_DENSE_TO_JAGGED_CASE',['../dense__to__jagged__forward_8cu.html#ab94a3e4679ece26e229ec76dc9733ca2',1,'dense_to_jagged_forward.cu']]],
+  ['dispatch_5femb_5fcache_5foutput_5ftypes_5',['DISPATCH_EMB_CACHE_OUTPUT_TYPES',['../dispatch__macros_8h.html#a8f06a63f75524d1985d76648b0fcf990',1,'dispatch_macros.h']]],
+  ['dispatch_5femb_5fcache_5ftypes_6',['DISPATCH_EMB_CACHE_TYPES',['../dispatch__macros_8h.html#ac4599e1c46b6eb357145dd791c6ae5c9',1,'dispatch_macros.h']]],
+  ['dispatch_5femb_5fgrad_5fcache_5ftypes_7',['DISPATCH_EMB_GRAD_CACHE_TYPES',['../dispatch__macros_8h.html#a10b99a9b7edecc89f4558ba0cf37c0ee',1,'dispatch_macros.h']]],
+  ['dispatch_5fkernel_5ffor_5fcache_5fcase_8',['DISPATCH_KERNEL_FOR_CACHE_CASE',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#a285553bb10df1164c041a1cb931b44a8',1,'DISPATCH_KERNEL_FOR_CACHE_CASE:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5foptimal_5fforward_5fkernel_9',['DISPATCH_OPTIMAL_FORWARD_KERNEL',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#abe51720e514c6a9d39c95bc2c72e1cd6',1,'DISPATCH_OPTIMAL_FORWARD_KERNEL:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5foptimal_5fkernel_10',['DISPATCH_OPTIMAL_KERNEL',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;embedding_backward_split_template.cu'],['../embedding__backward__split__template_8cu.html#accce092d5cf27275da7d960efa6c6321',1,'DISPATCH_OPTIMAL_KERNEL:&#160;embedding_backward_split_template.cu']]],
+  ['dispatch_5foptimal_5fnobag_5fforward_5fkernel_11',['DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../embedding__forward__split__template_8cu.html#a805da9b1e5a1c6e28a4d4c99501d1b1a',1,'DISPATCH_OPTIMAL_NOBAG_FORWARD_KERNEL:&#160;embedding_forward_split_template.cu']]],
+  ['dispatch_5foutput_5ftypes_12',['DISPATCH_OUTPUT_TYPES',['../dispatch__macros_8h.html#a91c270ea1cbf887747abbaf8883b7175',1,'dispatch_macros.h']]],
+  ['dispatch_5fto_5fall_13',['DISPATCH_TO_ALL',['../sparse__ops__utils_8h.html#ae80e8b33bdef7d2849eb3d516ff67d1b',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_14',['DISPATCH_TO_AUTOGRAD',['../sparse__ops__utils_8h.html#aab6390a9590ead03a896aae2b93a96ed',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_5fcuda_15',['DISPATCH_TO_AUTOGRAD_CUDA',['../sparse__ops__utils_8h.html#adb242971e11b66b1f8f58c361e44b8e7',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fautograd_5fmeta_16',['DISPATCH_TO_AUTOGRAD_META',['../sparse__ops__utils_8h.html#a8ed65710de63bd56275d2ceded5d59b4',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fcpu_17',['DISPATCH_TO_CPU',['../sparse__ops__utils_8h.html#af5cf39897136f04c6f2ac5f3544c49c3',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fcuda_18',['DISPATCH_TO_CUDA',['../sparse__ops__utils_8h.html#a06de50f3ede518ff59612c9ada5a85c8',1,'sparse_ops_utils.h']]],
+  ['dispatch_5fto_5fmeta_19',['DISPATCH_TO_META',['../sparse__ops__utils_8h.html#aa751218a0e9119ad6fa4d6d4df63fda5',1,'sparse_ops_utils.h']]],
+  ['div_5fround_5fup_20',['DIV_ROUND_UP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a0f2b77785cbc55639ba4e4874a65426c',1,'DIV_ROUND_UP:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['dll_5fpublic_21',['DLL_PUBLIC',['../ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d',1,'ops_utils.h']]]
+];
diff --git a/search/defines_4.js b/search/defines_4.js
new file mode 100644
index 000000000..c2f8d0985
--- /dev/null
+++ b/search/defines_4.js
@@ -0,0 +1,16 @@
+var searchData=
+[
+  ['fbgemm_5fdispatch_5ffloat_5fand_5fhalf_0',['FBGEMM_DISPATCH_FLOAT_AND_HALF',['../dispatch__macros_8h.html#a6db9b7506116844ae45993577c3b9ac4',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fand_5fhalf_5fcase_1',['FBGEMM_DISPATCH_FLOAT_AND_HALF_CASE',['../dispatch__macros_8h.html#a60faa23c8d1bf9d75a2e598a5654ecff',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fhalf_5fand_5fbfloat16_2',['FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16',['../dispatch__macros_8h.html#ab9329efe2d7882cbc2bd358b6672c292',1,'dispatch_macros.h']]],
+  ['fbgemm_5fdispatch_5ffloat_5fhalf_5fand_5fbfloat16_5fcase_3',['FBGEMM_DISPATCH_FLOAT_HALF_AND_BFLOAT16_CASE',['../dispatch__macros_8h.html#a7c7e35b09a14b3d5b76339803712ce7e',1,'dispatch_macros.h']]],
+  ['fbgemm_5fgpu_5fcub_5fns_5fprefix_4',['FBGEMM_GPU_CUB_NS_PREFIX',['../cub__namespace__postfix_8cuh.html#a12567f2486c4686871a5330dbd8e9bb4',1,'cub_namespace_postfix.cuh']]],
+  ['fbgemm_5fgpu_5fenum_5fcreate_5ftag_5',['FBGEMM_GPU_ENUM_CREATE_TAG',['../enum__utils_8h.html#a769a65d91133d4f233bcf10280ff7a3c',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fglogal_6',['FBGEMM_GPU_ENUM_GLOGAL',['../enum__utils_8h.html#adc8e24189b6f5a58092ade0b27e197b1',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fitem_7',['FBGEMM_GPU_ENUM_ITEM',['../enum__utils_8h.html#aef8d28be61e5e22bac45bf59c53dabbd',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fop_8',['FBGEMM_GPU_ENUM_OP',['../enum__utils_8h.html#abcc6d46ce5e5452b5b49f96ae0aa67f3',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fregister_5fend_9',['FBGEMM_GPU_ENUM_REGISTER_END',['../enum__utils_8h.html#a1fc46fffc78f3820ce4668b6b2a92b55',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5fregister_5fstart_10',['FBGEMM_GPU_ENUM_REGISTER_START',['../enum__utils_8h.html#a3c1089cc9b549d33d50c20c14b348950',1,'enum_utils.h']]],
+  ['fbgemm_5fgpu_5fenum_5ftag_11',['FBGEMM_GPU_ENUM_TAG',['../enum__utils_8h.html#aae161db28429e0e2aa9001448f52e2f4',1,'enum_utils.h']]],
+  ['fbgemm_5fop_5fdispatch_12',['FBGEMM_OP_DISPATCH',['../ops__utils_8h.html#aed63a3f5bb9ae1c01f230bee2d95ea05',1,'ops_utils.h']]]
+];
diff --git a/search/defines_5.js b/search/defines_5.js
new file mode 100644
index 000000000..20f5d6416
--- /dev/null
+++ b/search/defines_5.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['hex_0',['HEX',['../_c_make_c_compiler_id_8c.html#a46d5d95daa1bef867bd0179594310ed5',1,'HEX:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a46d5d95daa1bef867bd0179594310ed5',1,'HEX:&#160;CMakeCXXCompilerId.cpp']]]
+];
diff --git a/search/defines_6.js b/search/defines_6.js
new file mode 100644
index 000000000..a0e92b2a4
--- /dev/null
+++ b/search/defines_6.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['instantiate_5fbatched_5fcsr2csc_0',['INSTANTIATE_BATCHED_CSR2CSC',['../embedding__forward__split__cpu_8cpp.html#a32da455953694aac0b5e837bd3f1c31a',1,'embedding_forward_split_cpu.cpp']]],
+  ['invoke_5fgroup_5findex_5fselect_5for_5fadd_1',['INVOKE_GROUP_INDEX_SELECT_OR_ADD',['../sparse__group__index_8cu.html#acc7197a16e3ef386f0fd807a0919110b',1,'sparse_group_index.cu']]],
+  ['invoke_5fkernel_5fwith_5fdim_2',['INVOKE_KERNEL_WITH_DIM',['../jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;common.cuh'],['../jagged__tensor__ops_2common_8cuh.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;common.cuh'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#ac4adf873a2fdf50491e9cc9647e3f6cc',1,'INVOKE_KERNEL_WITH_DIM:&#160;jagged_tensor_ops_cpu.cpp']]],
+  ['invoke_5flinearize_5findex_5fkernel_3',['INVOKE_LINEARIZE_INDEX_KERNEL',['../transpose__embedding__input_8cu.html#ac03452638c5653f404a402f9f7356841',1,'transpose_embedding_input.cu']]],
+  ['invoke_5fprocess_5fall_5findices_4',['INVOKE_PROCESS_ALL_INDICES',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#acaeccb7e2e5908cef08556661b7a6f44',1,'INVOKE_PROCESS_ALL_INDICES:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['invoke_5fprocess_5fall_5findices_5fhelper_5',['INVOKE_PROCESS_ALL_INDICES_HELPER',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a65e818853d870f84ef24b703b0e02618',1,'INVOKE_PROCESS_ALL_INDICES_HELPER:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/defines_7.js b/search/defines_7.js
new file mode 100644
index 000000000..ae1d1ff32
--- /dev/null
+++ b/search/defines_7.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['jagged_5ftensor_5fdispatch_5fdims_0',['JAGGED_TENSOR_DISPATCH_DIMS',['../sparse__ops__utils_8h.html#a8f3cc6f3a1a83750715b4ddcb228ca8b',1,'sparse_ops_utils.h']]]
+];
diff --git a/search/defines_8.js b/search/defines_8.js
new file mode 100644
index 000000000..661f6dfe4
--- /dev/null
+++ b/search/defines_8.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['launch_5fauc_5fkernel_0',['LAUNCH_AUC_KERNEL',['../metric__ops_8cu.html#af8d70229cb61aff5f2f2e8f1abb10440',1,'metric_ops.cu']]],
+  ['launch_5findex_5fselect_1',['LAUNCH_INDEX_SELECT',['../sparse__index__select_8cu.html#a501f87ecefcbe28091d9a1c48499d3f6',1,'sparse_index_select.cu']]],
+  ['launch_5fkernel_2',['LAUNCH_KERNEL',['../keyed__jagged__index__select__dim1_8cu.html#a2ffb148e7bce97b5375e01ac265cc967',1,'keyed_jagged_index_select_dim1.cu']]],
+  ['ldg_3',['LDG',['../sparse__ops_2common_8cuh.html#a9e7ecd25c1168b19568b2ba40a731c39',1,'common.cuh']]]
+];
diff --git a/search/defines_9.js b/search/defines_9.js
new file mode 100644
index 000000000..4b04de124
--- /dev/null
+++ b/search/defines_9.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['make_5fpacked_5ftensor_5faccessor_5facc_5ftype_5fbase_0',['MAKE_PACKED_TENSOR_ACCESSOR_ACC_TYPE_BASE',['../fbgemm__tensor__accessor_8h.html#ae2a2547758e08761f973874a074b4fc1',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpacked_5ftensor_5faccessor_5fbase_1',['MAKE_PACKED_TENSOR_ACCESSOR_BASE',['../fbgemm__tensor__accessor_8h.html#ad5bf508fef6a8c9528a8f1c316bfd491',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpta_5facc_5fwith_5fname_2',['MAKE_PTA_ACC_WITH_NAME',['../fbgemm__tensor__accessor_8h.html#a23a5f2ae4f72b11bd67c678ae14d9af7',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpta_5fwith_5fname_3',['MAKE_PTA_WITH_NAME',['../fbgemm__tensor__accessor_8h.html#a614f4b016e2758186bd598bc3be6e6cf',1,'fbgemm_tensor_accessor.h']]],
+  ['max_4',['max',['../fbgemm__cuda__utils_8cuh.html#affe776513b24d84b39af8ab0930fef7f',1,'fbgemm_cuda_utils.cuh']]],
+  ['min_5',['min',['../fbgemm__cuda__utils_8cuh.html#ac6afabdc09a49a433ee19d8a9486056d',1,'fbgemm_cuda_utils.cuh']]]
+];
diff --git a/search/defines_a.js b/search/defines_a.js
new file mode 100644
index 000000000..67233fa7f
--- /dev/null
+++ b/search/defines_a.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['nvml_5fcheck_0',['NVML_CHECK',['../topology__utils_8cpp.html#af1ec00426a14a4658189ab308ea76636',1,'topology_utils.cpp']]]
+];
diff --git a/search/defines_b.js b/search/defines_b.js
new file mode 100644
index 000000000..4af4ced91
--- /dev/null
+++ b/search/defines_b.js
@@ -0,0 +1,10 @@
+var searchData=
+[
+  ['platform_5fid_0',['PLATFORM_ID',['../_c_make_c_compiler_id_8c.html#adbc5372f40838899018fadbc89bd588b',1,'PLATFORM_ID:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#adbc5372f40838899018fadbc89bd588b',1,'PLATFORM_ID:&#160;CMakeCXXCompilerId.cpp']]],
+  ['private_5fcase_5ftype_5fcache_1',['PRIVATE_CASE_TYPE_CACHE',['../dispatch__macros_8h.html#ab66dce26ee489c79f3a0441be14902fa',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5fcache_5femb_2',['PRIVATE_CASE_TYPE_CACHE_EMB',['../dispatch__macros_8h.html#a98d43954b688bc60b943227d761487b3',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5femb_3',['PRIVATE_CASE_TYPE_EMB',['../dispatch__macros_8h.html#af2c9e16b5345c0cdb6611357e0ec15db',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5foutput_4',['PRIVATE_CASE_TYPE_OUTPUT',['../dispatch__macros_8h.html#a3905d2ceab136e10c35a2ff4fe29a7d0',1,'dispatch_macros.h']]],
+  ['private_5fcase_5ftype_5foutput2_5',['PRIVATE_CASE_TYPE_OUTPUT2',['../dispatch__macros_8h.html#a17577aa7f884011133210418a790641a',1,'dispatch_macros.h']]],
+  ['pt2_5fcompliant_5ftag_6',['PT2_COMPLIANT_TAG',['../dispatch__macros_8h.html#a3b8ceecef1ba0067d90eea1764298cda',1,'dispatch_macros.h']]]
+];
diff --git a/search/defines_c.js b/search/defines_c.js
new file mode 100644
index 000000000..f6d2f1cfc
--- /dev/null
+++ b/search/defines_c.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['quantize_5fops_5fmax_0',['QUANTIZE_OPS_MAX',['../quantize__ops_2common_8cuh.html#ac84aa8e4e97b2a4675ec853e802ec4c6',1,'common.cuh']]],
+  ['quantize_5fops_5fmin_1',['QUANTIZE_OPS_MIN',['../quantize__ops_2common_8cuh.html#a7c9f79708fed845d68b88205e5a1c70c',1,'common.cuh']]]
+];
diff --git a/search/defines_d.js b/search/defines_d.js
new file mode 100644
index 000000000..be30b1401
--- /dev/null
+++ b/search/defines_d.js
@@ -0,0 +1,13 @@
+var searchData=
+[
+  ['shfl_5fsync_0',['SHFL_SYNC',['../embedding__forward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495',1,'SHFL_SYNC:&#160;embedding_forward_template_helpers.cuh'],['../embedding__backward__template__helpers_8cuh.html#adce6eee5db9c1c3f52ff15d9fe263495',1,'SHFL_SYNC:&#160;embedding_backward_template_helpers.cuh']]],
+  ['smem_5fcache_5fweight_5fdata_1',['SMEM_CACHE_WEIGHT_DATA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a9e947cce4a2cf3d4f94feeaf6024a3e3',1,'SMEM_CACHE_WEIGHT_DATA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fcache_5fweight_5fptr_2',['SMEM_CACHE_WEIGHT_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a8f5221b4fcc0397e5c260e567afd000f',1,'SMEM_CACHE_WEIGHT_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5femb_5fweight_5fdata_3',['SMEM_EMB_WEIGHT_DATA',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a741fa81333f21f397dd7bcb524345f77',1,'SMEM_EMB_WEIGHT_DATA:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5femb_5fweight_5fptr_4',['SMEM_EMB_WEIGHT_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a240239b93a27d2333aba0661096e3f2f',1,'SMEM_EMB_WEIGHT_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fgeneric_5fptr_5',['SMEM_GENERIC_PTR',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a82d4ccecee745b4cadb5d2d04e986efc',1,'SMEM_GENERIC_PTR:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5foffset_6',['SMEM_OFFSET',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a5c92b1dfe0de84f52323da3897cb0bb4',1,'SMEM_OFFSET:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['smem_5fptr_5fbase_7',['SMEM_PTR_BASE',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aec0d9a647d3bde05780ff426af9ebf45',1,'SMEM_PTR_BASE:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['stringify_8',['STRINGIFY',['../_c_make_c_compiler_id_8c.html#a43e1cad902b6477bec893cb6430bd6c8',1,'STRINGIFY:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a43e1cad902b6477bec893cb6430bd6c8',1,'STRINGIFY:&#160;CMakeCXXCompilerId.cpp']]],
+  ['stringify_5fhelper_9',['STRINGIFY_HELPER',['../_c_make_c_compiler_id_8c.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d',1,'STRINGIFY_HELPER:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a2ae9b72bb13abaabfcf2ee0ba7d3fa1d',1,'STRINGIFY_HELPER:&#160;CMakeCXXCompilerId.cpp']]]
+];
diff --git a/search/defines_e.js b/search/defines_e.js
new file mode 100644
index 000000000..59db48377
--- /dev/null
+++ b/search/defines_e.js
@@ -0,0 +1,19 @@
+var searchData=
+[
+  ['tensor_5fcontiguous_0',['TENSOR_CONTIGUOUS',['../sparse__ops__utils_8h.html#a333341c9590667c47753510e0da7b6e3',1,'sparse_ops_utils.h']]],
+  ['tensor_5fcontiguous_5fand_5fon_5fcpu_1',['TENSOR_CONTIGUOUS_AND_ON_CPU',['../sparse__ops__utils_8h.html#a0378cd5f9e716f13079b83a9b9805691',1,'sparse_ops_utils.h']]],
+  ['tensor_5fcontiguous_5fand_5fon_5fcuda_5fgpu_2',['TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#a350ade6aa989687c2ca8ced000e200ff',1,'sparse_ops_utils.h']]],
+  ['tensor_5fempty_5for_5fon_5fcpu_3',['TENSOR_EMPTY_OR_ON_CPU',['../sparse__ops__utils_8h.html#a73ab1987fec37ac982ae1ed77be0e3ea',1,'sparse_ops_utils.h']]],
+  ['tensor_5fempty_5for_5fon_5fcuda_5fgpu_4',['TENSOR_EMPTY_OR_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#aff83e4ada08cf70146ffc4ac2009aa9a',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fequals_5',['TENSOR_NDIM_EQUALS',['../sparse__ops__utils_8h.html#a485f848acf189619cb61a0ae7534eaa1',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fexceeds_6',['TENSOR_NDIM_EXCEEDS',['../sparse__ops__utils_8h.html#acfab048550cb0518bdb1ac267ef1e7ba',1,'sparse_ops_utils.h']]],
+  ['tensor_5fndim_5fis_5fge_7',['TENSOR_NDIM_IS_GE',['../sparse__ops__utils_8h.html#abd9e69a82885e6e361275a0b08ebe565',1,'sparse_ops_utils.h']]],
+  ['tensor_5fon_5fcpu_8',['TENSOR_ON_CPU',['../sparse__ops__utils_8h.html#a5d19d4051835acd2c6d83eb637341010',1,'sparse_ops_utils.h']]],
+  ['tensor_5fon_5fcuda_5fgpu_9',['TENSOR_ON_CUDA_GPU',['../sparse__ops__utils_8h.html#ac6089c2908cb1ae6367af5cf7bbea30d',1,'sparse_ops_utils.h']]],
+  ['tensor_5ftype_5fmust_5fbe_10',['TENSOR_TYPE_MUST_BE',['../sparse__ops__utils_8h.html#a003b5640cfa59fe8f5da9b1c9fcb8f26',1,'sparse_ops_utils.h']]],
+  ['tensors_5fempty_5for_5fon_5fsame_5fdevice_11',['TENSORS_EMPTY_OR_ON_SAME_DEVICE',['../sparse__ops__utils_8h.html#a3df91ae56fe10d1c002bed63e5b78d1b',1,'sparse_ops_utils.h']]],
+  ['tensors_5fhave_5fsame_5fnumel_12',['TENSORS_HAVE_SAME_NUMEL',['../sparse__ops__utils_8h.html#a9be1e573e7d3e35f3db03210e2624e61',1,'sparse_ops_utils.h']]],
+  ['tensors_5fhave_5fsame_5ftype_13',['TENSORS_HAVE_SAME_TYPE',['../sparse__ops__utils_8h.html#a97687675a3398d3168fe8f07a1b4db87',1,'sparse_ops_utils.h']]],
+  ['tensors_5fon_5fsame_5fcuda_5fgpu_5fif_5fnot_5foptional_14',['TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL',['../sparse__ops__utils_8h.html#a4724e1d67266b6998b8fe4ef1ec743d9',1,'sparse_ops_utils.h']]],
+  ['tensors_5fon_5fsame_5fdevice_15',['TENSORS_ON_SAME_DEVICE',['../sparse__ops__utils_8h.html#aa6ef8e13e3280066cc5f4f0970d3e7a6',1,'sparse_ops_utils.h']]]
+];
diff --git a/search/defines_f.js b/search/defines_f.js
new file mode 100644
index 000000000..172a46f56
--- /dev/null
+++ b/search/defines_f.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['weight_5foffset_0',['WEIGHT_OFFSET',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a1e90593b9eb03be49ddd5e3e5473f0b5',1,'WEIGHT_OFFSET:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/enums_0.js b/search/enums_0.js
new file mode 100644
index 000000000..fe4c5e166
--- /dev/null
+++ b/search/enums_0.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['args_5fpos_0',['args_pos',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396',1,'fbgemm_gpu']]]
+];
diff --git a/search/enums_1.js b/search/enums_1.js
new file mode 100644
index 000000000..846798e5e
--- /dev/null
+++ b/search/enums_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['boundscheckmode_0',['BoundsCheckMode',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111ea',1,'fbgemm_gpu']]]
+];
diff --git a/search/enums_2.js b/search/enums_2.js
new file mode 100644
index 000000000..71800ea52
--- /dev/null
+++ b/search/enums_2.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['lxu_5fcache_5fparams_0',['LXU_CACHE_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d',1,'LXU_CACHE_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071d',1,'LXU_CACHE_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]]
+];
diff --git a/search/enums_3.js b/search/enums_3.js
new file mode 100644
index 000000000..133e43282
--- /dev/null
+++ b/search/enums_3.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['placementtype_0',['PlacementType',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194',1,'fbgemm_gpu']]],
+  ['poolingmode_1',['PoolingMode',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5d',1,'fbgemm_gpu']]],
+  ['primitivetype_2',['PrimitiveType',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60',1,'fbgemm_gpu']]]
+];
diff --git a/search/enums_4.js b/search/enums_4.js
new file mode 100644
index 000000000..810cb42e4
--- /dev/null
+++ b/search/enums_4.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['saved_5fparams_0',['SAVED_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54',1,'SAVED_PARAMS:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['sparsetype_1',['SparseType',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833e',1,'fbgemm_gpu']]]
+];
diff --git a/search/enums_5.js b/search/enums_5.js
new file mode 100644
index 000000000..d8ad7e7e1
--- /dev/null
+++ b/search/enums_5.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['uvm_5fcache_5fstats_5findex_0',['uvm_cache_stats_index',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aa',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_0.js b/search/enumvalues_0.js
new file mode 100644
index 000000000..6bf7323dc
--- /dev/null
+++ b/search/enumvalues_0.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['bf_0',['BF',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a7b8d2f92148f52cad46e331936922e80',1,'fbgemm_gpu']]],
+  ['bf16_1',['BF16',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaf656bbf613964dcf710b771b0918ab30',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_1.js b/search/enumvalues_1.js
new file mode 100644
index 000000000..307736a7c
--- /dev/null
+++ b/search/enumvalues_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['device_0',['DEVICE',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194ae10b6ab6a278644ce40631f62f360b6d',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_2.js b/search/enumvalues_2.js
new file mode 100644
index 000000000..c4c78f28b
--- /dev/null
+++ b/search/enumvalues_2.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['fatal_0',['FATAL',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaa19da7170bea36556dde582519795f3fc',1,'fbgemm_gpu']]],
+  ['fp_1',['FP',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a4ebada6a2af2bcba53ded1d7b414f081',1,'fbgemm_gpu']]],
+  ['fp16_2',['FP16',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaa4bf99d6945c25077fd6660d536af8a0',1,'fbgemm_gpu']]],
+  ['fp32_3',['FP32',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea693aa0bef84c25fe81c7e62e72f9313d',1,'fbgemm_gpu']]],
+  ['fp8_4',['FP8',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eae32efd813b88548940f8718a61864cf5',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_3.js b/search/enumvalues_3.js
new file mode 100644
index 000000000..b907f0d6c
--- /dev/null
+++ b/search/enumvalues_3.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['host_0',['HOST',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194ab9361011891280a44d85b967739cc6a5',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_4.js b/search/enumvalues_4.js
new file mode 100644
index 000000000..ce6bc7a08
--- /dev/null
+++ b/search/enumvalues_4.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['ignore_0',['IGNORE',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaaa2e843feab94ef623fea888f07c28696',1,'fbgemm_gpu']]],
+  ['int_1',['INT',['../namespacefbgemm__gpu.html#aa7e45742197542f659233c21b883ba60a53f93baa3057821107c750323892fa92',1,'fbgemm_gpu']]],
+  ['int2_2',['INT2',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea8fbf1fab49398b0d298699ea3ccbebc5',1,'fbgemm_gpu']]],
+  ['int4_3',['INT4',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833ea94635600f8a63640263a5ebc30d79a2a',1,'fbgemm_gpu']]],
+  ['int8_4',['INT8',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaee9d73311ff0658494edfff14c3ec1e3',1,'fbgemm_gpu']]],
+  ['invalid_5',['INVALID',['../namespacefbgemm__gpu.html#a47b4476e5f749d63e15d2f8e55be833eaccc0377a8afbf50e7094f5c23a8af223',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_5.js b/search/enumvalues_5.js
new file mode 100644
index 000000000..53c5d1efb
--- /dev/null
+++ b/search/enumvalues_5.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['managed_0',['MANAGED',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194af59a25f2594f469f0bfccad7f8f13744',1,'fbgemm_gpu']]],
+  ['managed_5fcaching_1',['MANAGED_CACHING',['../namespacefbgemm__gpu.html#a8f04cbe33fa88d1e420c06b1f8879194a3664f93edf39a3e7e0a84f3cefb624a6',1,'fbgemm_gpu']]],
+  ['mean_2',['MEAN',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5da4ea6d1161ea24d7599365f574aff6610',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_6.js b/search/enumvalues_6.js
new file mode 100644
index 000000000..f7d8517d9
--- /dev/null
+++ b/search/enumvalues_6.js
@@ -0,0 +1,10 @@
+var searchData=
+[
+  ['none_0',['NONE',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5dab50339a10e1de285ac99d4c3990b8693',1,'fbgemm_gpu']]],
+  ['num_5fcalls_1',['num_calls',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaadaf139c74384603431fd1bbb3347aa34',1,'fbgemm_gpu']]],
+  ['num_5fconflict_5fmisses_2',['num_conflict_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaac0cd9dffdb3c001656bee52db850d1c6',1,'fbgemm_gpu']]],
+  ['num_5fconflict_5funique_5fmisses_3',['num_conflict_unique_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaa30ee3b3c17bbfefe571f4ea5e99b00d6',1,'fbgemm_gpu']]],
+  ['num_5frequested_5findices_4',['num_requested_indices',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaacf3fcf7ace9b3a5b4ab424c874b84439',1,'fbgemm_gpu']]],
+  ['num_5funique_5findices_5',['num_unique_indices',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaa555e0f1fe32e24cc25b049fdf3d0afc',1,'fbgemm_gpu']]],
+  ['num_5funique_5fmisses_6',['num_unique_misses',['../namespacefbgemm__gpu.html#aefeeb0d13ba9b557b8d693c43e5a43aaaabea3db589a421890b799e0ac63dfc53',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_7.js b/search/enumvalues_7.js
new file mode 100644
index 000000000..ddc871e83
--- /dev/null
+++ b/search/enumvalues_7.js
@@ -0,0 +1,20 @@
+var searchData=
+[
+  ['p_5findex_5fweights_0',['P_index_weights',['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54ae6fddad64ad96f09ab2bf8e417dcab18',1,'gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5findices_1',['P_indices',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a4b8443d24ef0d6d8b29d1de191b5fa20',1,'P_indices:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5findices_5fis_5flong_2',['P_indices_is_long',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ac640586328f5125ff8881c6b93fac125',1,'fbgemm_gpu']]],
+  ['p_5findices_5foffsets_3',['P_indices_offsets',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a5f3a87c5dbebfaefd128c19ebbe6c7de',1,'fbgemm_gpu']]],
+  ['p_5findices_5fprts_4',['P_indices_prts',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a8ae3847f58b98ba0ff4b0fcdfb4ae8e6',1,'fbgemm_gpu']]],
+  ['p_5flengths_5faddrs_5',['P_lengths_addrs',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a66aa4e0ec73344232b5d56ee78ef17b0',1,'fbgemm_gpu']]],
+  ['p_5flengths_5fis_5flong_6',['P_lengths_is_long',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396a1c841401de519f97ca671d064c22250e',1,'fbgemm_gpu']]],
+  ['p_5flengths_5foffsets_7',['P_lengths_offsets',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ad300b64361a3f3e756bfa78fd0b23b97',1,'fbgemm_gpu']]],
+  ['p_5fload_5fd_8',['P_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a8cfa61b080ef7d26fbe3b8d150b04834',1,'P_load_D:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5flxu_5fcache_5flocations_9',['P_lxu_cache_locations',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c',1,'P_lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071da9e6d36a61249ee13ac61fee16a76d83c',1,'P_lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5flxu_5fcache_5fweights_10',['P_lxu_cache_weights',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0',1,'P_lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad863bc0421e111195e2ac11c7ad2071daf09c8e1f82af5f3e97070537dec964e0',1,'P_lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5fnum_5foffsets_11',['P_num_offsets',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aecf1052c404b0ca815cb290cb8854144',1,'P_num_offsets:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5foffsets_12',['P_offsets',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029',1,'P_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a7fcce188570ec66dece71f0da186e029',1,'P_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['p_5foutputs_13',['P_outputs',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a00d2586446417c7ba88c313f0901f3da',1,'P_outputs:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5fper_5fsample_5fweight_14',['P_per_sample_weight',['../namespacefbgemm__gpu.html#afcbf1cd70ce8ea074c2e799d1559b396ae38edd0733e3ec3ca85cfa8bd9b8ac93',1,'fbgemm_gpu']]],
+  ['p_5ftotal_5fload_5fd_15',['P_total_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54a26b29347efcf14fcee3eef781e755ea2',1,'P_total_load_D:&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['p_5fweights_16',['P_weights',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#aa8c3f67d852b0552ccbe30a899cd4c54aeea99260eda72bf0110c9b54f0ebcb52',1,'P_weights:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/enumvalues_8.js b/search/enumvalues_8.js
new file mode 100644
index 000000000..2ecf9cd7f
--- /dev/null
+++ b/search/enumvalues_8.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['sum_0',['SUM',['../namespacefbgemm__gpu.html#aa1f721fe0d5e5a710e7a05f788f01f5da6970bdc2201030b9c03fbdcf3973858a',1,'fbgemm_gpu']]]
+];
diff --git a/search/enumvalues_9.js b/search/enumvalues_9.js
new file mode 100644
index 000000000..312eea4b7
--- /dev/null
+++ b/search/enumvalues_9.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['value_0',['value',['../structlog2__calc__.html#a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9',1,'log2_calc_::value'],['../structlog2__calc___3_010_01_4.html#adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9',1,'log2_calc_&lt; 0 &gt;::value'],['../structlog2__calc.html#a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9',1,'log2_calc::value']]]
+];
diff --git a/search/enumvalues_a.js b/search/enumvalues_a.js
new file mode 100644
index 000000000..3d76361c2
--- /dev/null
+++ b/search/enumvalues_a.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['warning_0',['WARNING',['../namespacefbgemm__gpu.html#a70433200cf584e2429434a33d45111eaa059e9861e0400dfbe05c98a841f3f96b',1,'fbgemm_gpu']]]
+];
diff --git a/search/files_0.js b/search/files_0.js
new file mode 100644
index 000000000..a0ba37c73
--- /dev/null
+++ b/search/files_0.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['batch_5findex_5fselect_5fdim0_5fcpu_5fhost_2ecpp_0',['batch_index_select_dim0_cpu_host.cpp',['../batch__index__select__dim0__cpu__host_8cpp.html',1,'']]],
+  ['batch_5findex_5fselect_5fdim0_5fhost_2ecpp_1',['batch_index_select_dim0_host.cpp',['../batch__index__select__dim0__host_8cpp.html',1,'']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_2ecu_2',['batched_dense_vec_jagged_2d_mul_backward.cu',['../batched__dense__vec__jagged__2d__mul__backward_8cu.html',1,'']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_2ecu_3',['batched_dense_vec_jagged_2d_mul_forward.cu',['../batched__dense__vec__jagged__2d__mul__forward_8cu.html',1,'']]],
+  ['bench_5futils_2ecuh_4',['bench_utils.cuh',['../bench__utils_8cuh.html',1,'']]]
+];
diff --git a/search/files_1.js b/search/files_1.js
new file mode 100644
index 000000000..268f60745
--- /dev/null
+++ b/search/files_1.js
@@ -0,0 +1,13 @@
+var searchData=
+[
+  ['cmakeccompilerid_2ec_0',['CMakeCCompilerId.c',['../_c_make_c_compiler_id_8c.html',1,'']]],
+  ['cmakecxxcompilerid_2ecpp_1',['CMakeCXXCompilerId.cpp',['../_c_make_c_x_x_compiler_id_8cpp.html',1,'']]],
+  ['common_2ecuh_2',['common.cuh',['../jagged__tensor__ops_2common_8cuh.html',1,'(Global Namespace)'],['../memory__utils_2common_8cuh.html',1,'(Global Namespace)'],['../quantize__ops_2common_8cuh.html',1,'(Global Namespace)'],['../sparse__ops_2common_8cuh.html',1,'(Global Namespace)'],['../split__embeddings__cache_2common_8cuh.html',1,'(Global Namespace)']]],
+  ['common_2eh_3',['common.h',['../memory__utils_2common_8h.html',1,'(Global Namespace)'],['../split__embeddings__cache_2common_8h.html',1,'(Global Namespace)']]],
+  ['cpu_5fkernel_5ftest_2ecpp_4',['cpu_kernel_test.cpp',['../cpu__kernel__test_8cpp.html',1,'']]],
+  ['cpu_5futils_2eh_5',['cpu_utils.h',['../cpu__utils_8h.html',1,'']]],
+  ['cub_5fnamespace_5fpostfix_2ecuh_6',['cub_namespace_postfix.cuh',['../cub__namespace__postfix_8cuh.html',1,'']]],
+  ['cub_5fnamespace_5fprefix_2ecuh_7',['cub_namespace_prefix.cuh',['../cub__namespace__prefix_8cuh.html',1,'']]],
+  ['cuda_5futils_2ecuh_8',['cuda_utils.cuh',['../cuda__utils_8cuh.html',1,'']]],
+  ['cumem_5futils_2eh_9',['cumem_utils.h',['../cumem__utils_8h.html',1,'']]]
+];
diff --git a/search/files_10.js b/search/files_10.js
new file mode 100644
index 000000000..86ea8cc52
--- /dev/null
+++ b/search/files_10.js
@@ -0,0 +1,40 @@
+var searchData=
+[
+  ['sparse_5fasync_5fcumsum_2ecu_0',['sparse_async_cumsum.cu',['../sparse__async__cumsum_8cu.html',1,'']]],
+  ['sparse_5fbatched_5funary_5fembeddings_2ecu_1',['sparse_batched_unary_embeddings.cu',['../sparse__batched__unary__embeddings_8cu.html',1,'']]],
+  ['sparse_5fblock_5fbucketize_5ffeatures_2ecu_2',['sparse_block_bucketize_features.cu',['../sparse__block__bucketize__features_8cu.html',1,'']]],
+  ['sparse_5fbucketize_5ffeatures_2ecu_3',['sparse_bucketize_features.cu',['../sparse__bucketize__features_8cu.html',1,'']]],
+  ['sparse_5fcompute_5ffrequency_5fsequence_2ecu_4',['sparse_compute_frequency_sequence.cu',['../sparse__compute__frequency__sequence_8cu.html',1,'']]],
+  ['sparse_5fexpand_5finto_5fjagged_5fpermute_2ecu_5',['sparse_expand_into_jagged_permute.cu',['../sparse__expand__into__jagged__permute_8cu.html',1,'']]],
+  ['sparse_5fgroup_5findex_2ecu_6',['sparse_group_index.cu',['../sparse__group__index_8cu.html',1,'']]],
+  ['sparse_5findex_5fadd_2ecu_7',['sparse_index_add.cu',['../sparse__index__add_8cu.html',1,'']]],
+  ['sparse_5findex_5fselect_2ecu_8',['sparse_index_select.cu',['../sparse__index__select_8cu.html',1,'']]],
+  ['sparse_5finvert_5fpermute_2ecu_9',['sparse_invert_permute.cu',['../sparse__invert__permute_8cu.html',1,'']]],
+  ['sparse_5fops_2ecuh_10',['sparse_ops.cuh',['../sparse__ops_8cuh.html',1,'']]],
+  ['sparse_5fops_2eh_11',['sparse_ops.h',['../sparse__ops_8h.html',1,'']]],
+  ['sparse_5fops_5fcpu_2ecpp_12',['sparse_ops_cpu.cpp',['../sparse__ops__cpu_8cpp.html',1,'']]],
+  ['sparse_5fops_5fgpu_2ecpp_13',['sparse_ops_gpu.cpp',['../sparse__ops__gpu_8cpp.html',1,'']]],
+  ['sparse_5fops_5fmeta_2ecpp_14',['sparse_ops_meta.cpp',['../sparse__ops__meta_8cpp.html',1,'']]],
+  ['sparse_5fops_5futils_2eh_15',['sparse_ops_utils.h',['../sparse__ops__utils_8h.html',1,'']]],
+  ['sparse_5fops_5futils_5ftest_2ecpp_16',['sparse_ops_utils_test.cpp',['../sparse__ops__utils__test_8cpp.html',1,'']]],
+  ['sparse_5fpack_5fsegments_5fbackward_2ecu_17',['sparse_pack_segments_backward.cu',['../sparse__pack__segments__backward_8cu.html',1,'']]],
+  ['sparse_5fpack_5fsegments_5fforward_2ecu_18',['sparse_pack_segments_forward.cu',['../sparse__pack__segments__forward_8cu.html',1,'']]],
+  ['sparse_5fpermute102_2ecu_19',['sparse_permute102.cu',['../sparse__permute102_8cu.html',1,'']]],
+  ['sparse_5fpermute_5f1d_2ecu_20',['sparse_permute_1d.cu',['../sparse__permute__1d_8cu.html',1,'']]],
+  ['sparse_5fpermute_5f2d_2ecu_21',['sparse_permute_2d.cu',['../sparse__permute__2d_8cu.html',1,'']]],
+  ['sparse_5fpermute_5fembeddings_2ecu_22',['sparse_permute_embeddings.cu',['../sparse__permute__embeddings_8cu.html',1,'']]],
+  ['sparse_5frange_2ecu_23',['sparse_range.cu',['../sparse__range_8cu.html',1,'']]],
+  ['sparse_5freorder_5fbatched_5fad_2ecu_24',['sparse_reorder_batched_ad.cu',['../sparse__reorder__batched__ad_8cu.html',1,'']]],
+  ['sparse_5fsegment_5fsum_5fcsr_2ecu_25',['sparse_segment_sum_csr.cu',['../sparse__segment__sum__csr_8cu.html',1,'']]],
+  ['sparse_5fzipf_2ecu_26',['sparse_zipf.cu',['../sparse__zipf_8cu.html',1,'']]],
+  ['split_5fembeddings_5fcache_5fcuda_2ecuh_27',['split_embeddings_cache_cuda.cuh',['../split__embeddings__cache__cuda_8cuh.html',1,'']]],
+  ['split_5fembeddings_5fcache_5fops_2ecpp_28',['split_embeddings_cache_ops.cpp',['../split__embeddings__cache__ops_8cpp.html',1,'']]],
+  ['split_5fembeddings_5fcache_5fops_2ecu_29',['split_embeddings_cache_ops.cu',['../split__embeddings__cache__ops_8cu.html',1,'']]],
+  ['split_5fembeddings_5futils_2ecpp_30',['split_embeddings_utils.cpp',['../split__embeddings__utils_8cpp.html',1,'']]],
+  ['split_5fembeddings_5futils_2ecuh_31',['split_embeddings_utils.cuh',['../split__embeddings__utils_8cuh.html',1,'']]],
+  ['ssd_5fsplit_5fembeddings_5fcache_5fcuda_2ecu_32',['ssd_split_embeddings_cache_cuda.cu',['../ssd__split__embeddings__cache__cuda_8cu.html',1,'']]],
+  ['ssd_5fsplit_5ftable_5fbatched_5fembeddings_2ecpp_33',['ssd_split_table_batched_embeddings.cpp',['../ssd__split__table__batched__embeddings_8cpp.html',1,'']]],
+  ['ssd_5ftable_5fbatched_5fembeddings_2eh_34',['ssd_table_batched_embeddings.h',['../ssd__table__batched__embeddings_8h.html',1,'']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_2ecu_35',['stacked_jagged_1d_to_dense.cu',['../stacked__jagged__1d__to__dense_8cu.html',1,'']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_2ecu_36',['stacked_jagged_2d_to_dense.cu',['../stacked__jagged__2d__to__dense_8cu.html',1,'']]]
+];
diff --git a/search/files_11.js b/search/files_11.js
new file mode 100644
index 000000000..0adefda48
--- /dev/null
+++ b/search/files_11.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['tensor_5fassert_5ftest_2ecpp_0',['tensor_assert_test.cpp',['../tensor__assert__test_8cpp.html',1,'']]],
+  ['topology_5futils_2ecpp_1',['topology_utils.cpp',['../topology__utils_8cpp.html',1,'']]],
+  ['topology_5futils_2eh_2',['topology_utils.h',['../topology__utils_8h.html',1,'']]],
+  ['transpose_5fembedding_5finput_2ecu_3',['transpose_embedding_input.cu',['../transpose__embedding__input_8cu.html',1,'']]]
+];
diff --git a/search/files_12.js b/search/files_12.js
new file mode 100644
index 000000000..d4e4f3005
--- /dev/null
+++ b/search/files_12.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['uvm_5fcache_5fmiss_5femulate_5ftest_2ecpp_0',['uvm_cache_miss_emulate_test.cpp',['../uvm__cache__miss__emulate__test_8cpp.html',1,'']]]
+];
diff --git a/search/files_13.js b/search/files_13.js
new file mode 100644
index 000000000..3f5f262a7
--- /dev/null
+++ b/search/files_13.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['verify_5ffp16_5fstochastic_5fbenchmark_2ecu_0',['verify_fp16_stochastic_benchmark.cu',['../verify__fp16__stochastic__benchmark_8cu.html',1,'']]]
+];
diff --git a/search/files_2.js b/search/files_2.js
new file mode 100644
index 000000000..473d42e4b
--- /dev/null
+++ b/search/files_2.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['dense_5fto_5fjagged_5fforward_2ecu_0',['dense_to_jagged_forward.cu',['../dense__to__jagged__forward_8cu.html',1,'']]],
+  ['dispatch_5fmacros_2eh_1',['dispatch_macros.h',['../dispatch__macros_8h.html',1,'']]]
+];
diff --git a/search/files_3.js b/search/files_3.js
new file mode 100644
index 000000000..1b5e55fb8
--- /dev/null
+++ b/search/files_3.js
@@ -0,0 +1,45 @@
+var searchData=
+[
+  ['embedding_5fbackward_5fdense_5fhost_2ecpp_0',['embedding_backward_dense_host.cpp',['../embedding__backward__dense__host_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fdense_5fhost_5fcpu_2ecpp_1',['embedding_backward_dense_host_cpu.cpp',['../embedding__backward__dense__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fcpu_5fapprox_5ftemplate_2ecpp_2',['embedding_backward_split_cpu_approx_template.cpp',['../embedding__backward__split__cpu__approx__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fcpu_5ftemplate_2ecpp_3',['embedding_backward_split_cpu_template.cpp',['../embedding__backward__split__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fgrad_5ftemplate_2ecu_4',['embedding_backward_split_grad_template.cu',['../embedding__backward__split__grad__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fhost_5fcpu_5ftemplate_2ecpp_5',['embedding_backward_split_host_cpu_template.cpp',['../embedding__backward__split__host__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fhost_5ftemplate_2ecpp_6',['embedding_backward_split_host_template.cpp',['../embedding__backward__split__host__template_8cpp.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5findice_5fweights_5ftemplate_2ecu_7',['embedding_backward_split_indice_weights_template.cu',['../embedding__backward__split__indice__weights__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fkernel_5fcta_5ftemplate_2ecu_8',['embedding_backward_split_kernel_cta_template.cu',['../embedding__backward__split__kernel__cta__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5fkernel_5fwarp_5ftemplate_2ecu_9',['embedding_backward_split_kernel_warp_template.cu',['../embedding__backward__split__kernel__warp__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5fsplit_5ftemplate_2ecu_10',['embedding_backward_split_template.cu',['../embedding__backward__split__template_8cu.html',1,'']]],
+  ['embedding_5fbackward_5ftemplate_5fhelpers_2ecuh_11',['embedding_backward_template_helpers.cuh',['../embedding__backward__template__helpers_8cuh.html',1,'']]],
+  ['embedding_5fbounds_5fcheck_2ecu_12',['embedding_bounds_check.cu',['../embedding__bounds__check_8cu.html',1,'']]],
+  ['embedding_5fbounds_5fcheck_5fhost_2ecpp_13',['embedding_bounds_check_host.cpp',['../embedding__bounds__check__host_8cpp.html',1,'']]],
+  ['embedding_5fbounds_5fcheck_5fhost_5fcpu_2ecpp_14',['embedding_bounds_check_host_cpu.cpp',['../embedding__bounds__check__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fcommon_2eh_15',['embedding_common.h',['../embedding__common_8h.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fcpu_5ftemplate_2ecpp_16',['embedding_forward_quantized_cpu_template.cpp',['../embedding__forward__quantized__cpu__template_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fhost_2ecpp_17',['embedding_forward_quantized_host.cpp',['../embedding__forward__quantized__host_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fhost_5fcpu_2ecpp_18',['embedding_forward_quantized_host_cpu.cpp',['../embedding__forward__quantized__host__cpu_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5flookup_2ecu_19',['embedding_forward_quantized_split_lookup.cu',['../embedding__forward__quantized__split__lookup_8cu.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5ftemplate_2ecu_20',['embedding_forward_quantized_split_nbit_host_template.cu',['../embedding__forward__quantized__split__nbit__host__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5ftemplate_2ecu_21',['embedding_forward_quantized_split_nbit_kernel_template.cu',['../embedding__forward__quantized__split__nbit__kernel__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fcpu_2ecpp_22',['embedding_forward_split_cpu.cpp',['../embedding__forward__split__cpu_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fcpu_2eh_23',['embedding_forward_split_cpu.h',['../embedding__forward__split__cpu_8h.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5fnobag_5fsmall_5ftemplate_2ecu_24',['embedding_forward_split_kernel_nobag_small_template.cu',['../embedding__forward__split__kernel__nobag__small__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5ftemplate_2ecu_25',['embedding_forward_split_kernel_template.cu',['../embedding__forward__split__kernel__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fkernel_5fv2_5ftemplate_2ecu_26',['embedding_forward_split_kernel_v2_template.cu',['../embedding__forward__split__kernel__v2__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5fmeta_5ftemplate_2ecpp_27',['embedding_forward_split_meta_template.cpp',['../embedding__forward__split__meta__template_8cpp.html',1,'']]],
+  ['embedding_5fforward_5fsplit_5ftemplate_2ecu_28',['embedding_forward_split_template.cu',['../embedding__forward__split__template_8cu.html',1,'']]],
+  ['embedding_5fforward_5ftemplate_5fhelpers_2ecuh_29',['embedding_forward_template_helpers.cuh',['../embedding__forward__template__helpers_8cuh.html',1,'']]],
+  ['embedding_5finplace_5fupdate_2ecu_30',['embedding_inplace_update.cu',['../embedding__inplace__update_8cu.html',1,'']]],
+  ['embedding_5finplace_5fupdate_2eh_31',['embedding_inplace_update.h',['../embedding__inplace__update_8h.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5fcpu_2ecpp_32',['embedding_inplace_update_cpu.cpp',['../embedding__inplace__update__cpu_8cpp.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5fgpu_2ecpp_33',['embedding_inplace_update_gpu.cpp',['../embedding__inplace__update__gpu_8cpp.html',1,'']]],
+  ['embedding_5finplace_5fupdate_5ftest_2ecpp_34',['embedding_inplace_update_test.cpp',['../embedding__inplace__update__test_8cpp.html',1,'']]],
+  ['embedding_5fop_5fregistration_2eh_35',['embedding_op_registration.h',['../embedding__op__registration_8h.html',1,'']]],
+  ['embedding_5fops_5fplaceholder_2ecpp_36',['embedding_ops_placeholder.cpp',['../embedding__ops__placeholder_8cpp.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fdevice_5fkernel_5ftemplate_2ecuh_37',['embedding_optimizer_split_device_kernel_template.cuh',['../embedding__optimizer__split__device__kernel__template_8cuh.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fhost_5ftemplate_2ecpp_38',['embedding_optimizer_split_host_template.cpp',['../embedding__optimizer__split__host__template_8cpp.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5fkernel_5ftemplate_2ecu_39',['embedding_optimizer_split_kernel_template.cu',['../embedding__optimizer__split__kernel__template_8cu.html',1,'']]],
+  ['embedding_5foptimizer_5fsplit_5ftemplate_2ecu_40',['embedding_optimizer_split_template.cu',['../embedding__optimizer__split__template_8cu.html',1,'']]],
+  ['enum_5futils_2eh_41',['enum_utils.h',['../enum__utils_8h.html',1,'']]]
+];
diff --git a/search/files_4.js b/search/files_4.js
new file mode 100644
index 000000000..2515308e0
--- /dev/null
+++ b/search/files_4.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['fbgemm_5fcuda_5futils_2ecuh_0',['fbgemm_cuda_utils.cuh',['../fbgemm__cuda__utils_8cuh.html',1,'']]],
+  ['fbgemm_5ftensor_5faccessor_2eh_1',['fbgemm_tensor_accessor.h',['../fbgemm__tensor__accessor_8h.html',1,'']]]
+];
diff --git a/search/files_5.js b/search/files_5.js
new file mode 100644
index 000000000..085227b01
--- /dev/null
+++ b/search/files_5.js
@@ -0,0 +1,257 @@
+var searchData=
+[
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fcodegen_5fcuda_2ecu_0',['gen_batch_index_select_dim0_backward_codegen_cuda.cu',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fkernel_5fcta_2ecu_1',['gen_batch_index_select_dim0_backward_kernel_cta.cu',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fbackward_5fkernel_5fwarp_2ecu_2',['gen_batch_index_select_dim0_backward_kernel_warp.cu',['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fcodegen_5fcuda_2ecu_3',['gen_batch_index_select_dim0_forward_codegen_cuda.cu',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fkernel_2ecu_4',['gen_batch_index_select_dim0_forward_kernel.cu',['../gen__batch__index__select__dim0__forward__kernel_8cu.html',1,'']]],
+  ['gen_5fbatch_5findex_5fselect_5fdim0_5fforward_5fkernel_5fsmall_2ecu_5',['gen_batch_index_select_dim0_forward_kernel_small.cu',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fcpu_2ecpp_6',['gen_embedding_backward_adagrad_split_cpu.cpp',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_7',['gen_embedding_backward_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_8',['gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_9',['gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_10',['gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_11',['gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_12',['gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_13',['gen_embedding_backward_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_14',['gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_15',['gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fcuda_2ecu_16',['gen_embedding_backward_adam_split_unweighted_cuda.cu',['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fkernel_5fcta_2ecu_17',['gen_embedding_backward_adam_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_18',['gen_embedding_backward_adam_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_19',['gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_20',['gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_21',['gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fcuda_2ecu_22',['gen_embedding_backward_adam_split_weighted_cuda.cu',['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fkernel_5fcta_2ecu_23',['gen_embedding_backward_adam_split_weighted_kernel_cta.cu',['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fadam_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_24',['gen_embedding_backward_adam_split_weighted_kernel_warp.cu',['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fcuda_2ecu_25',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fcta_2ecu_26',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_27',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_28',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_29',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_30',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fcuda_2ecu_31',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fcta_2ecu_32',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_33',['gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5findice_5fweights_5fcodegen_5fcuda_2ecu_34',['gen_embedding_backward_dense_indice_weights_codegen_cuda.cu',['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fcpu_2ecpp_35',['gen_embedding_backward_dense_split_cpu.cpp',['../gen__embedding__backward__dense__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fcuda_2ecu_36',['gen_embedding_backward_dense_split_unweighted_cuda.cu',['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fkernel_5fcta_2ecu_37',['gen_embedding_backward_dense_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_38',['gen_embedding_backward_dense_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_39',['gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_40',['gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_41',['gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fcuda_2ecu_42',['gen_embedding_backward_dense_split_weighted_cuda.cu',['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fkernel_5fcta_2ecu_43',['gen_embedding_backward_dense_split_weighted_kernel_cta.cu',['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fdense_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_44',['gen_embedding_backward_dense_split_weighted_kernel_warp.cu',['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fcuda_2ecu_45',['gen_embedding_backward_lamb_split_unweighted_cuda.cu',['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fkernel_5fcta_2ecu_46',['gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_47',['gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_48',['gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_49',['gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_50',['gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fcuda_2ecu_51',['gen_embedding_backward_lamb_split_weighted_cuda.cu',['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fkernel_5fcta_2ecu_52',['gen_embedding_backward_lamb_split_weighted_kernel_cta.cu',['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flamb_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_53',['gen_embedding_backward_lamb_split_weighted_kernel_warp.cu',['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fcuda_2ecu_54',['gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fkernel_5fcta_2ecu_55',['gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_56',['gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_57',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_58',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_59',['gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fcuda_2ecu_60',['gen_embedding_backward_lars_sgd_split_weighted_cuda.cu',['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fkernel_5fcta_2ecu_61',['gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu',['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5flars_5fsgd_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_62',['gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu',['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fcuda_2ecu_63',['gen_embedding_backward_none_split_unweighted_cuda.cu',['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fkernel_5fcta_2ecu_64',['gen_embedding_backward_none_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_65',['gen_embedding_backward_none_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_66',['gen_embedding_backward_none_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_67',['gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_68',['gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fcuda_2ecu_69',['gen_embedding_backward_none_split_weighted_cuda.cu',['../gen__embedding__backward__none__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fkernel_5fcta_2ecu_70',['gen_embedding_backward_none_split_weighted_kernel_cta.cu',['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fnone_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_71',['gen_embedding_backward_none_split_weighted_kernel_warp.cu',['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fcuda_2ecu_72',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fkernel_5fcta_2ecu_73',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_74',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_75',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_76',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_77',['gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fcuda_2ecu_78',['gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fkernel_5fcta_2ecu_79',['gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5fadam_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_80',['gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fcuda_2ecu_81',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fkernel_5fcta_2ecu_82',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_83',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_84',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_85',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_86',['gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fcuda_2ecu_87',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fkernel_5fcta_2ecu_88',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fpartial_5frowwise_5flamb_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_89',['gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fcpu_2ecpp_90',['gen_embedding_backward_rowwise_adagrad_split_cpu.cpp',['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_91',['gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_92',['gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_93',['gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_94',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_95',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_96',['gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fcuda_2ecu_97',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fkernel_5fcta_2ecu_98',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5funweighted_5fvbe_5fkernel_5fwarp_2ecu_99',['gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_100',['gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_101',['gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_102',['gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fcuda_2ecu_103',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fkernel_5fcta_2ecu_104',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fsplit_5fweighted_5fvbe_5fkernel_5fwarp_2ecu_105',['gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fcpu_2ecpp_106',['gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fcuda_2ecu_107',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fkernel_5fcta_2ecu_108',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_109',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_110',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_111',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_112',['gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fcuda_2ecu_113',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fkernel_5fcta_2ecu_114',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_115',['gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fcuda_2ecu_116',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fcta_2ecu_117',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_118',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_119',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_120',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_121',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fcuda_2ecu_122',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fcta_2ecu_123',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_124',['gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fcpu_2ecpp_125',['gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp',['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fcuda_2ecu_126',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fkernel_5fcta_2ecu_127',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_128',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_129',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_130',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_131',['gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fcuda_2ecu_132',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fkernel_5fcta_2ecu_133',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5frowwise_5fweighted_5fadagrad_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_134',['gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fcpu_2ecpp_135',['gen_embedding_backward_sgd_split_cpu.cpp',['../gen__embedding__backward__sgd__split__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fcuda_2ecu_136',['gen_embedding_backward_sgd_split_unweighted_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fkernel_5fcta_2ecu_137',['gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fkernel_5fwarp_2ecu_138',['gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fcuda_2ecu_139',['gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fcta_2ecu_140',['gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fnobag_5fkernel_5fwarp_2ecu_141',['gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fcuda_2ecu_142',['gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fkernel_5fcta_2ecu_143',['gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5funweighted_5fvbe_5fkernel_5fwarp_2ecu_144',['gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu',['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fcuda_2ecu_145',['gen_embedding_backward_sgd_split_weighted_cuda.cu',['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fkernel_5fcta_2ecu_146',['gen_embedding_backward_sgd_split_weighted_kernel_cta.cu',['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fkernel_5fwarp_2ecu_147',['gen_embedding_backward_sgd_split_weighted_kernel_warp.cu',['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fcuda_2ecu_148',['gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fkernel_5fcta_2ecu_149',['gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsgd_5fsplit_5fweighted_5fvbe_5fkernel_5fwarp_2ecu_150',['gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu',['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadagrad_2ecpp_151',['gen_embedding_backward_split_adagrad.cpp',['../gen__embedding__backward__split__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadagrad_5fcpu_2ecpp_152',['gen_embedding_backward_split_adagrad_cpu.cpp',['../gen__embedding__backward__split__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadam_2ecpp_153',['gen_embedding_backward_split_adam.cpp',['../gen__embedding__backward__split__adam_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fadam_5fcpu_2ecpp_154',['gen_embedding_backward_split_adam_cpu.cpp',['../gen__embedding__backward__split__adam__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_2ecpp_155',['gen_embedding_backward_split_approx_rowwise_adagrad.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fcpu_2ecpp_156',['gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_2ecpp_157',['gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_2ecpp_158',['gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_2ecpp_159',['gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fcpu_2ecpp_160',['gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp',['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5fsgd_2ecpp_161',['gen_embedding_backward_split_approx_sgd.cpp',['../gen__embedding__backward__split__approx__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fapprox_5fsgd_5fcpu_2ecpp_162',['gen_embedding_backward_split_approx_sgd_cpu.cpp',['../gen__embedding__backward__split__approx__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fgrad_2ecu_163',['gen_embedding_backward_split_grad.cu',['../gen__embedding__backward__split__grad_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5findice_5fweights_5fcodegen_5fcuda_2ecu_164',['gen_embedding_backward_split_indice_weights_codegen_cuda.cu',['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flamb_2ecpp_165',['gen_embedding_backward_split_lamb.cpp',['../gen__embedding__backward__split__lamb_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flamb_5fcpu_2ecpp_166',['gen_embedding_backward_split_lamb_cpu.cpp',['../gen__embedding__backward__split__lamb__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flars_5fsgd_2ecpp_167',['gen_embedding_backward_split_lars_sgd.cpp',['../gen__embedding__backward__split__lars__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5flars_5fsgd_5fcpu_2ecpp_168',['gen_embedding_backward_split_lars_sgd_cpu.cpp',['../gen__embedding__backward__split__lars__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fnone_2ecpp_169',['gen_embedding_backward_split_none.cpp',['../gen__embedding__backward__split__none_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fnone_5fcpu_2ecpp_170',['gen_embedding_backward_split_none_cpu.cpp',['../gen__embedding__backward__split__none__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5fadam_2ecpp_171',['gen_embedding_backward_split_partial_rowwise_adam.cpp',['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5fadam_5fcpu_2ecpp_172',['gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp',['../gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5flamb_2ecpp_173',['gen_embedding_backward_split_partial_rowwise_lamb.cpp',['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fpartial_5frowwise_5flamb_5fcpu_2ecpp_174',['gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp',['../gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_2ecpp_175',['gen_embedding_backward_split_rowwise_adagrad.cpp',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fcpu_2ecpp_176',['gen_embedding_backward_split_rowwise_adagrad_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fcounter_2ecpp_177',['gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_2ecpp_178',['gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_2ecpp_179',['gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fcpu_2ecpp_180',['gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp',['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fweighted_5fadagrad_2ecpp_181',['gen_embedding_backward_split_rowwise_weighted_adagrad.cpp',['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5frowwise_5fweighted_5fadagrad_5fcpu_2ecpp_182',['gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp',['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fsgd_2ecpp_183',['gen_embedding_backward_split_sgd.cpp',['../gen__embedding__backward__split__sgd_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fbackward_5fsplit_5fsgd_5fcpu_2ecpp_184',['gen_embedding_backward_split_sgd_cpu.cpp',['../gen__embedding__backward__split__sgd__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fcodegen_5fcuda_2ecu_185',['gen_embedding_forward_dense_unweighted_codegen_cuda.cu',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fcodegen_5fmeta_2ecpp_186',['gen_embedding_forward_dense_unweighted_codegen_meta.cpp',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fkernel_2ecu_187',['gen_embedding_forward_dense_unweighted_kernel.cu',['../gen__embedding__forward__dense__unweighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fnobag_5fkernel_2ecu_188',['gen_embedding_forward_dense_unweighted_nobag_kernel.cu',['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5funweighted_5fnobag_5fkernel_5fsmall_2ecu_189',['gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu',['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fcodegen_5fcuda_2ecu_190',['gen_embedding_forward_dense_weighted_codegen_cuda.cu',['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fcodegen_5fmeta_2ecpp_191',['gen_embedding_forward_dense_weighted_codegen_meta.cpp',['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fdense_5fweighted_5fkernel_2ecu_192',['gen_embedding_forward_dense_weighted_kernel.cu',['../gen__embedding__forward__dense__weighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5funweighted_5fcodegen_5fcuda_2ecu_193',['gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5funweighted_5fnobag_5fcodegen_5fcuda_2ecu_194',['gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fhost_5fweighted_5fcodegen_5fcuda_2ecu_195',['gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp16_5fcodegen_5fcuda_2ecu_196',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp32_5fcodegen_5fcuda_2ecu_197',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5ffp8_5fcodegen_5fcuda_2ecu_198',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint2_5fcodegen_5fcuda_2ecu_199',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint4_5fcodegen_5fcuda_2ecu_200',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fint8_5fcodegen_5fcuda_2ecu_201',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp16_5fcodegen_5fcuda_2ecu_202',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp32_5fcodegen_5fcuda_2ecu_203',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5ffp8_5fcodegen_5fcuda_2ecu_204',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint2_5fcodegen_5fcuda_2ecu_205',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint4_5fcodegen_5fcuda_2ecu_206',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5funweighted_5fnobag_5fint8_5fcodegen_5fcuda_2ecu_207',['gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp16_5fcodegen_5fcuda_2ecu_208',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp32_5fcodegen_5fcuda_2ecu_209',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5ffp8_5fcodegen_5fcuda_2ecu_210',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint2_5fcodegen_5fcuda_2ecu_211',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint4_5fcodegen_5fcuda_2ecu_212',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fsplit_5fnbit_5fkernel_5fweighted_5fint8_5fcodegen_5fcuda_2ecu_213',['gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu',['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5funweighted_5fcodegen_5fcpu_2ecpp_214',['gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fquantized_5fweighted_5fcodegen_5fcpu_2ecpp_215',['gen_embedding_forward_quantized_weighted_codegen_cpu.cpp',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fcodegen_5fcuda_2ecu_216',['gen_embedding_forward_split_unweighted_codegen_cuda.cu',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fcodegen_5fmeta_2ecpp_217',['gen_embedding_forward_split_unweighted_codegen_meta.cpp',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fkernel_2ecu_218',['gen_embedding_forward_split_unweighted_kernel.cu',['../gen__embedding__forward__split__unweighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fnobag_5fkernel_2ecu_219',['gen_embedding_forward_split_unweighted_nobag_kernel.cu',['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fnobag_5fkernel_5fsmall_2ecu_220',['gen_embedding_forward_split_unweighted_nobag_kernel_small.cu',['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fv2_5fkernel_2ecu_221',['gen_embedding_forward_split_unweighted_v2_kernel.cu',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fcodegen_5fcuda_2ecu_222',['gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu',['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fcodegen_5fmeta_2ecpp_223',['gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp',['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5funweighted_5fvbe_5fkernel_2ecu_224',['gen_embedding_forward_split_unweighted_vbe_kernel.cu',['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fcodegen_5fcuda_2ecu_225',['gen_embedding_forward_split_weighted_codegen_cuda.cu',['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fcodegen_5fmeta_2ecpp_226',['gen_embedding_forward_split_weighted_codegen_meta.cpp',['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fkernel_2ecu_227',['gen_embedding_forward_split_weighted_kernel.cu',['../gen__embedding__forward__split__weighted__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fv2_5fkernel_2ecu_228',['gen_embedding_forward_split_weighted_v2_kernel.cu',['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fcodegen_5fcuda_2ecu_229',['gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu',['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fcodegen_5fmeta_2ecpp_230',['gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp',['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html',1,'']]],
+  ['gen_5fembedding_5fforward_5fsplit_5fweighted_5fvbe_5fkernel_2ecu_231',['gen_embedding_forward_split_weighted_vbe_kernel.cu',['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_232',['gen_embedding_optimizer_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fadam_5fsplit_5fdevice_5fkernel_2ecuh_233',['gen_embedding_optimizer_adam_split_device_kernel.cuh',['../gen__embedding__optimizer__adam__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_234',['gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fdevice_5fkernel_2ecuh_235',['gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fdevice_5fkernel_2ecuh_236',['gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fapprox_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_237',['gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fdense_5fsplit_5fdevice_5fkernel_2ecuh_238',['gen_embedding_optimizer_dense_split_device_kernel.cuh',['../gen__embedding__optimizer__dense__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5flamb_5fsplit_5fdevice_5fkernel_2ecuh_239',['gen_embedding_optimizer_lamb_split_device_kernel.cuh',['../gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5flars_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_240',['gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fnone_5fsplit_5fdevice_5fkernel_2ecuh_241',['gen_embedding_optimizer_none_split_device_kernel.cuh',['../gen__embedding__optimizer__none__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fpartial_5frowwise_5fadam_5fsplit_5fdevice_5fkernel_2ecuh_242',['gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh',['../gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fpartial_5frowwise_5flamb_5fsplit_5fdevice_5fkernel_2ecuh_243',['gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh',['../gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_2ecpp_244',['gen_embedding_optimizer_rowwise_adagrad_split.cpp',['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fcuda_2ecu_245',['gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu',['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_246',['gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fsplit_5fkernel_2ecu_247',['gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fwith_5fcounter_5fsplit_5fdevice_5fkernel_2ecuh_248',['gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fsplit_5fdevice_5fkernel_2ecuh_249',['gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5frowwise_5fweighted_5fadagrad_5fsplit_5fdevice_5fkernel_2ecuh_250',['gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh',['../gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html',1,'']]],
+  ['gen_5fembedding_5foptimizer_5fsgd_5fsplit_5fdevice_5fkernel_2ecuh_251',['gen_embedding_optimizer_sgd_split_device_kernel.cuh',['../gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html',1,'']]],
+  ['generate_5fvbe_5fmetadata_2ecu_252',['generate_vbe_metadata.cu',['../generate__vbe__metadata_8cu.html',1,'']]],
+  ['get_5finfos_5fmetadata_2ecu_253',['get_infos_metadata.cu',['../get__infos__metadata_8cu.html',1,'']]]
+];
diff --git a/search/files_6.js b/search/files_6.js
new file mode 100644
index 000000000..e2829ed98
--- /dev/null
+++ b/search/files_6.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['histogram_5fbinning_5fcalibration_5fops_2ecu_0',['histogram_binning_calibration_ops.cu',['../histogram__binning__calibration__ops_8cu.html',1,'']]]
+];
diff --git a/search/files_7.js b/search/files_7.js
new file mode 100644
index 000000000..9c2d40673
--- /dev/null
+++ b/search/files_7.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['input_5fcombine_2ecu_0',['input_combine.cu',['../input__combine_8cu.html',1,'']]],
+  ['input_5fcombine_2eh_1',['input_combine.h',['../input__combine_8h.html',1,'']]],
+  ['input_5fcombine_5fcpu_2ecpp_2',['input_combine_cpu.cpp',['../input__combine__cpu_8cpp.html',1,'']]],
+  ['input_5fcombine_5fgpu_2ecpp_3',['input_combine_gpu.cpp',['../input__combine__gpu_8cpp.html',1,'']]]
+];
diff --git a/search/files_8.js b/search/files_8.js
new file mode 100644
index 000000000..afb50db31
--- /dev/null
+++ b/search/files_8.js
@@ -0,0 +1,19 @@
+var searchData=
+[
+  ['jagged_5fdense_5fbmm_5fforward_2ecu_0',['jagged_dense_bmm_forward.cu',['../jagged__dense__bmm__forward_8cu.html',1,'']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_2ecu_1',['jagged_dense_dense_elementwise_add_jagged_output_forward.cu',['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html',1,'']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_2ecu_2',['jagged_dense_elementwise_mul_backward.cu',['../jagged__dense__elementwise__mul__backward_8cu.html',1,'']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_2ecu_3',['jagged_dense_elementwise_mul_forward.cu',['../jagged__dense__elementwise__mul__forward_8cu.html',1,'']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_2ecu_4',['jagged_index_add_2d_forward.cu',['../jagged__index__add__2d__forward_8cu.html',1,'']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_2ecu_5',['jagged_index_select_2d_forward.cu',['../jagged__index__select__2d__forward_8cu.html',1,'']]],
+  ['jagged_5fjagged_5fbmm_5fforward_2ecu_6',['jagged_jagged_bmm_forward.cu',['../jagged__jagged__bmm__forward_8cu.html',1,'']]],
+  ['jagged_5fsoftmax_5fbackward_2ecu_7',['jagged_softmax_backward.cu',['../jagged__softmax__backward_8cu.html',1,'']]],
+  ['jagged_5fsoftmax_5fforward_2ecu_8',['jagged_softmax_forward.cu',['../jagged__softmax__forward_8cu.html',1,'']]],
+  ['jagged_5ftensor_5fops_2ecu_9',['jagged_tensor_ops.cu',['../jagged__tensor__ops_8cu.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fautograd_2ecpp_10',['jagged_tensor_ops_autograd.cpp',['../jagged__tensor__ops__autograd_8cpp.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fcpu_2ecpp_11',['jagged_tensor_ops_cpu.cpp',['../jagged__tensor__ops__cpu_8cpp.html',1,'']]],
+  ['jagged_5ftensor_5fops_5fmeta_2ecpp_12',['jagged_tensor_ops_meta.cpp',['../jagged__tensor__ops__meta_8cpp.html',1,'']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_2ecu_13',['jagged_to_padded_dense_backward.cu',['../jagged__to__padded__dense__backward_8cu.html',1,'']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_2ecu_14',['jagged_to_padded_dense_forward.cu',['../jagged__to__padded__dense__forward_8cu.html',1,'']]],
+  ['jagged_5funique_5findices_2ecu_15',['jagged_unique_indices.cu',['../jagged__unique__indices_8cu.html',1,'']]]
+];
diff --git a/search/files_9.js b/search/files_9.js
new file mode 100644
index 000000000..751fbf1c4
--- /dev/null
+++ b/search/files_9.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['keyed_5fjagged_5findex_5fselect_5fdim1_2ecu_0',['keyed_jagged_index_select_dim1.cu',['../keyed__jagged__index__select__dim1_8cu.html',1,'']]]
+];
diff --git a/search/files_a.js b/search/files_a.js
new file mode 100644
index 000000000..37958d9ba
--- /dev/null
+++ b/search/files_a.js
@@ -0,0 +1,19 @@
+var searchData=
+[
+  ['layout_5ftransform_5fops_2ecu_0',['layout_transform_ops.cu',['../layout__transform__ops_8cu.html',1,'']]],
+  ['layout_5ftransform_5fops_2ecuh_1',['layout_transform_ops.cuh',['../layout__transform__ops_8cuh.html',1,'']]],
+  ['layout_5ftransform_5fops_5fcpu_2ecpp_2',['layout_transform_ops_cpu.cpp',['../layout__transform__ops__cpu_8cpp.html',1,'']]],
+  ['layout_5ftransform_5fops_5fgpu_2ecpp_3',['layout_transform_ops_gpu.cpp',['../layout__transform__ops__gpu_8cpp.html',1,'']]],
+  ['lfu_5fcache_5ffind_2ecu_4',['lfu_cache_find.cu',['../lfu__cache__find_8cu.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_2ecu_5',['lfu_cache_populate.cu',['../lfu__cache__populate_8cu.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_2ecpp_6',['lfu_cache_populate_byte.cpp',['../lfu__cache__populate__byte_8cpp.html',1,'']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_2ecu_7',['lfu_cache_populate_byte.cu',['../lfu__cache__populate__byte_8cu.html',1,'']]],
+  ['linearize_5fcache_5findices_2ecpp_8',['linearize_cache_indices.cpp',['../linearize__cache__indices_8cpp.html',1,'']]],
+  ['linearize_5fcache_5findices_2ecu_9',['linearize_cache_indices.cu',['../linearize__cache__indices_8cu.html',1,'']]],
+  ['lru_5fcache_5ffind_2ecu_10',['lru_cache_find.cu',['../lru__cache__find_8cu.html',1,'']]],
+  ['lru_5fcache_5fpopulate_2ecu_11',['lru_cache_populate.cu',['../lru__cache__populate_8cu.html',1,'']]],
+  ['lru_5fcache_5fpopulate_5fbyte_2ecpp_12',['lru_cache_populate_byte.cpp',['../lru__cache__populate__byte_8cpp.html',1,'']]],
+  ['lru_5fcache_5fpopulate_5fbyte_2ecu_13',['lru_cache_populate_byte.cu',['../lru__cache__populate__byte_8cu.html',1,'']]],
+  ['lxu_5fcache_2ecpp_14',['lxu_cache.cpp',['../lxu__cache_8cpp.html',1,'']]],
+  ['lxu_5fcache_2ecu_15',['lxu_cache.cu',['../lxu__cache_8cu.html',1,'']]]
+];
diff --git a/search/files_b.js b/search/files_b.js
new file mode 100644
index 000000000..ebdaae84b
--- /dev/null
+++ b/search/files_b.js
@@ -0,0 +1,14 @@
+var searchData=
+[
+  ['memory_5futils_2ecpp_0',['memory_utils.cpp',['../memory__utils_8cpp.html',1,'']]],
+  ['memory_5futils_2ecu_1',['memory_utils.cu',['../memory__utils_8cu.html',1,'']]],
+  ['memory_5futils_5fops_2ecpp_2',['memory_utils_ops.cpp',['../memory__utils__ops_8cpp.html',1,'']]],
+  ['memory_5futils_5fops_2ecu_3',['memory_utils_ops.cu',['../memory__utils__ops_8cu.html',1,'']]],
+  ['memory_5futils_5fops_5fcpu_2ecpp_4',['memory_utils_ops_cpu.cpp',['../memory__utils__ops__cpu_8cpp.html',1,'']]],
+  ['merge_5fpooled_5fembedding_5fops_5fcpu_2ecpp_5',['merge_pooled_embedding_ops_cpu.cpp',['../merge__pooled__embedding__ops__cpu_8cpp.html',1,'']]],
+  ['merge_5fpooled_5fembedding_5fops_5fgpu_2ecpp_6',['merge_pooled_embedding_ops_gpu.cpp',['../merge__pooled__embedding__ops__gpu_8cpp.html',1,'']]],
+  ['merge_5fpooled_5fembeddings_2eh_7',['merge_pooled_embeddings.h',['../merge__pooled__embeddings_8h.html',1,'']]],
+  ['metric_5fops_2ecu_8',['metric_ops.cu',['../metric__ops_8cu.html',1,'']]],
+  ['metric_5fops_2eh_9',['metric_ops.h',['../metric__ops_8h.html',1,'']]],
+  ['metric_5fops_5fhost_2ecpp_10',['metric_ops_host.cpp',['../metric__ops__host_8cpp.html',1,'']]]
+];
diff --git a/search/files_c.js b/search/files_c.js
new file mode 100644
index 000000000..c7fcaf676
--- /dev/null
+++ b/search/files_c.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['ops_5futils_2eh_0',['ops_utils.h',['../ops__utils_8h.html',1,'']]]
+];
diff --git a/search/files_d.js b/search/files_d.js
new file mode 100644
index 000000000..2f24e1f69
--- /dev/null
+++ b/search/files_d.js
@@ -0,0 +1,14 @@
+var searchData=
+[
+  ['permute_5fpooled_5fembedding_5ffunction_2ecpp_0',['permute_pooled_embedding_function.cpp',['../permute__pooled__embedding__function_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_2ecu_1',['permute_pooled_embedding_ops.cu',['../permute__pooled__embedding__ops_8cu.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_2eh_2',['permute_pooled_embedding_ops.h',['../permute__pooled__embedding__ops_8h.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fcpu_2ecpp_3',['permute_pooled_embedding_ops_cpu.cpp',['../permute__pooled__embedding__ops__cpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fgpu_2ecpp_4',['permute_pooled_embedding_ops_gpu.cpp',['../permute__pooled__embedding__ops__gpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_2ecu_5',['permute_pooled_embedding_ops_split.cu',['../permute__pooled__embedding__ops__split_8cu.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_2eh_6',['permute_pooled_embedding_ops_split.h',['../permute__pooled__embedding__ops__split_8h.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_5fcpu_2ecpp_7',['permute_pooled_embedding_ops_split_cpu.cpp',['../permute__pooled__embedding__ops__split__cpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembedding_5fops_5fsplit_5fgpu_2ecpp_8',['permute_pooled_embedding_ops_split_gpu.cpp',['../permute__pooled__embedding__ops__split__gpu_8cpp.html',1,'']]],
+  ['permute_5fpooled_5fembs_5ffunction_2eh_9',['permute_pooled_embs_function.h',['../permute__pooled__embs__function_8h.html',1,'']]],
+  ['permute_5fpooled_5fembs_5ffunction_5fsplit_2eh_10',['permute_pooled_embs_function_split.h',['../permute__pooled__embs__function__split_8h.html',1,'']]]
+];
diff --git a/search/files_e.js b/search/files_e.js
new file mode 100644
index 000000000..6e36be359
--- /dev/null
+++ b/search/files_e.js
@@ -0,0 +1,15 @@
+var searchData=
+[
+  ['quantize_5fbfloat16_2ecu_0',['quantize_bfloat16.cu',['../quantize__bfloat16_8cu.html',1,'']]],
+  ['quantize_5ffp8_5frowwise_2ecu_1',['quantize_fp8_rowwise.cu',['../quantize__fp8__rowwise_8cu.html',1,'']]],
+  ['quantize_5ffused_5f8bit_5frowwise_2ecu_2',['quantize_fused_8bit_rowwise.cu',['../quantize__fused__8bit__rowwise_8cu.html',1,'']]],
+  ['quantize_5ffused_5fnbit_5frowwise_2ecu_3',['quantize_fused_nbit_rowwise.cu',['../quantize__fused__nbit__rowwise_8cu.html',1,'']]],
+  ['quantize_5fhfp8_2ecu_4',['quantize_hfp8.cu',['../quantize__hfp8_8cu.html',1,'']]],
+  ['quantize_5fmsfp_2ecu_5',['quantize_msfp.cu',['../quantize__msfp_8cu.html',1,'']]],
+  ['quantize_5fops_2ecuh_6',['quantize_ops.cuh',['../quantize__ops_8cuh.html',1,'']]],
+  ['quantize_5fops_5fcpu_2ecpp_7',['quantize_ops_cpu.cpp',['../quantize__ops__cpu_8cpp.html',1,'']]],
+  ['quantize_5fops_5fgpu_2ecpp_8',['quantize_ops_gpu.cpp',['../quantize__ops__gpu_8cpp.html',1,'']]],
+  ['quantize_5fops_5fmeta_2ecpp_9',['quantize_ops_meta.cpp',['../quantize__ops__meta_8cpp.html',1,'']]],
+  ['quantize_5fops_5futils_2eh_10',['quantize_ops_utils.h',['../quantize__ops__utils_8h.html',1,'']]],
+  ['quantize_5fpadded_5ffp8_5frowwise_2ecu_11',['quantize_padded_fp8_rowwise.cu',['../quantize__padded__fp8__rowwise_8cu.html',1,'']]]
+];
diff --git a/search/files_f.js b/search/files_f.js
new file mode 100644
index 000000000..2a02461e5
--- /dev/null
+++ b/search/files_f.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['radix_5fsort_5fpairs_2ecu_0',['radix_sort_pairs.cu',['../radix__sort__pairs_8cu.html',1,'']]],
+  ['reset_5fweight_5fmomentum_2ecu_1',['reset_weight_momentum.cu',['../reset__weight__momentum_8cu.html',1,'']]]
+];
diff --git a/search/functions_0.js b/search/functions_0.js
index 41eb52c4a..c51e3cc5b 100644
--- a/search/functions_0.js
+++ b/search/functions_0.js
@@ -1,9 +1,67 @@
 var searchData=
 [
-  ['_5fbfloat16_5fto_5ffloat_5fgpu_0',['_bfloat16_to_float_gpu',['../group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fbfloat16_5fgpu_1',['_float_to_bfloat16_gpu',['../group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fhfp8_5fgpu_2',['_float_to_hfp8_gpu',['../group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a',1,'fbgemm_gpu']]],
-  ['_5ffloat_5fto_5fmsfp_5fgpu_3',['_float_to_msfp_gpu',['../group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5',1,'fbgemm_gpu']]],
-  ['_5fhfp8_5fto_5ffloat_5fgpu_4',['_hfp8_to_float_gpu',['../group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6',1,'fbgemm_gpu']]],
-  ['_5fmsfp_5fto_5ffloat_5fgpu_5',['_msfp_to_float_gpu',['../group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce',1,'fbgemm_gpu']]]
+  ['_5f_5falign_5f_5f_0',['__align__',['../namespacefbgemm__gpu.html#a9a25aa8cfdd2801c4576fb7111ca1e34',1,'fbgemm_gpu::__align__(32) float8'],['../namespacefbgemm__gpu.html#ac5ef7f218ca22e4dd93d4161458006f6',1,'fbgemm_gpu::__align__(64) float_16'],['../namespacefbgemm__gpu.html#a5365b81a771afde2d770210e45b73bdb',1,'fbgemm_gpu::__align__(8) half4'],['../namespacefbgemm__gpu.html#ad5af23eb5e28d14f6089e7a18b0ed0d5',1,'fbgemm_gpu::__align__(16) half8']]],
+  ['_5f_5flaunch_5fbounds_5f_5f_1',['__launch_bounds__',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e4504b4f1023565bf18ac29f304f165',1,'__launch_bounds__(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row(const pta:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a419781019c14d9d59041ca2a127d2c1a',1,'__launch_bounds__(kMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_cta_per_row&lt; uint8_t:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#af1eb0a147a3656c72bff10b68454c23b',1,'__launch_bounds__(kBackwardMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row(const pta:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a422cac14ead186e7d1ffdea24dbb41a2',1,'__launch_bounds__(kBackwardMaxThreads) void batch_index_select_dim0_codegen_backward_kernel_warp_per_row&lt; uint8_t:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#afe75d514238f01862b4416d072a457ab',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_kernel(const pta:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a794e5a8311030e080f19bcaf98cbaa3e',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_kernel&lt; uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aab67c7ff63262ed7ee2955ab54fd6cdb',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_small_kernel(const pta:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a09ab46cf824219bc6c7ca9a47e3d90cd',1,'__launch_bounds__(kForwardMaxThreads) __global__ void batch_index_select_dim0_codegen_forward_small_kernel&lt; uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#aec97e553558684266790dc906158a105',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a60482659dcb929a1f6a60dda564f4cdc',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a50cb7dfbe0185fcbd26cfd0156710acc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a0ed9968b042349d756a20bfc8c31c22d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a7f198a235aa56925b36d48d029f9a26a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abb3af3ab6c99e8609b2199129b2a6c3d',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2ca5c0c3b7f03146b0739206987a8efb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad265ff9fd07f592055eb413d73ff59a3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a479b62e3a680d0eb604b0d99c497dc44',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a16936797cd22aeea32b40dcc55e1d73f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a665c5d75524a34cec6f5b5258b182d7a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a7729be76298454212379af9803e78cf9',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aeb6425d7cade524ae83445d8ffcad95a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#ada6a5fbef27c4a4a31a9b8794e15442e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a8a0814be275ca40dd482231bf8be61ef',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abcaa8e0b99a97add31e16f0454bd57d3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a30fd75bf7de9f2dd4c1af90a76cc4cab',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a43a11629fc716aa3fc2efce282ade1bf',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a1e6a8699bf2c46477da50582e38ee237',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae3a9242f5ffd888400f08b8c1662cc61',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aa7724fd36f338edda8cec8fbce0dcc3f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#aaa0f0d28eaca058bde829af48b4a9b93',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a141a421e122929281f3a968d7181075d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#aa53241ccd067fda3b4f745364d104ae7',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_adam_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#aef74039cc67d8a29f2964dd2ead5c884',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a8005f4419a0e99b1adc8ba836e2bacc4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#af4e9ad9da78c796024828e400596398e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abbbfbac2a0d5a12edfd4fa6e476f5089',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a727c25d68451d781ee3328a76b544770',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a942a80794035682b67bf75531af7ea76',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a02950b6e35152a847c545ef90af6c315',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a46c9fa7a8cf628e30c5bcbd6713846b2',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#adf6d412fe63bcfdcd84fc4e45f616217',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a360c18a2f091431cf7f15e6ac14e848a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a60ab111bc496bd3b843b3d73350f6695',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abe773e17b7f19a70a10efe7bf1763c07',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#ad49c5c5e6c69ba836c2c3728d383cd5c',1,'__launch_bounds__(kForwardMaxThreads) void dense_embedding_codegen_grad_indice_weights_kernel(const pta:&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a71d10fab767a3f6a4c9845432b7c673b',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a134107427281e66b9bdc1f05e0ed2006',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a321e6c7a5bc2c920f083dadb4d023bae',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a705c39686bcf17986ce0182b31944a82',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a8f6c6ea91c21be19960e453b8f83698b',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#aa068d67521003fac6c5013d12698b228',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4d92990636a3fcdbe762a413cc96c642',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a9629d38b5ab429da94bb1d5099042123',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_dense_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a044189dd94a5b69db982c5e78a8258f4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a44794beb7b535ee85a06027407e9578d',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#aec8fd1dccb91dec69eee635d8cc8cae3',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ae68abaaf02536c2e20decd2ca4daef60',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_dense_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa9d0b42dc9a6b6c25005e5adc6a412e3',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#af2bc792b1cf28a27ebfc0866b059fa81',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a502bf7dfa5a02ec71b77763a65ec91c5',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a8026675b09ae447bd48ab0a854ea28bf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aac66a737c59bab7e9f767b1e38d5f1d3',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#afd63238f6b7c4a1e468568bda42bb3e0',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a4e2287d8d0e80b53a592337a64570d66',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a11d09ebd4c4b65fb35d265de845d73fc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#afa2ba02eba70da5c0a8fdcd8509e7e77',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a61e7f43722eeda4e4234e1af525ae46e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afcf8fbf4f5013c1082ce86fa5c3a5fd4',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ab184e11501d6d031e538c60ef66a8342',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lamb_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a8ea3bce56ea941e3716f81220ab88fe5',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aaa9702e86f8ed1788c7796017bdd404c',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a0c5ac630cac3e582871b2521984d3691',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af7be11e596974198a45beaacc4d9db0f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a1be3f22e4eb6db21e09d922580c54faf',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a84b86dee7ee70d3e3ba5ae6f466c6f0e',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a89a6fc31913b2347216065f4655b82ff',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a584ad4898a3e03f279eb3a39c419735e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_lars_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#aa2038bd1822625bd55a38eed4240c39a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#ae41fadf6abfe1e00dccedd18b90dab32',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a9ba65eca59bd0b29e87b4adb5a444d1b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a60776cad67cb695e9768c1ce170aed12',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_lars_sgd_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#adb6e98291bfdb46d09389b2b453e54b2',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab6d47d46fccfb5d973f8ff2a44bff7a',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a9d6d3f6a070db2a520adb97ff89e7f1c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#adda6d498fce399be1bb4ff6c884cd325',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a3c38980139cb0d10bc2d195479a69fb4',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a55340037f2150aa438d4cb6675412e7e',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ae53e64a9190921226cba0e54595de4af',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6c8f5295879f30dac04285180744b05b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_none_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a49683c14f18b75fafd2a5ce3f90c7d61',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a78a9d364ed7043a1412228b17a0406a1',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#acd2e3179752c56bfdde47a8ad7a00220',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a4d483ee9ae74898f27f8070e41c4fced',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_none_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a440dc2054a1346ad291f617540be2e25',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#afaf745a30243c0c755429f1b1d465f2d',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#ab435787b7738dff4daa1eca5ed8725dd',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a809fb9fd9f5386090e58c2fdd7f05bbd',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a250b8485cb708a3fe1d789613014b238',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a4996180a982a92cb9151e2557777d77a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae96e8ad601ac1adb859d3aec074bb439',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae28f985f3c5d59410f3fd6c2a99d9320',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a59f00431d3950b72f6e7d89baf3fde0b',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f233fc13ea7dbc092ed3c22b2bf1a7f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a965b9c456ca6a6dffb664f585401250d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a69d372f391200ef3cafedad093a5470f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_adam_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ad23ff52f91efba0cbff48134c3a42bc4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa9475900cea03cb0a61e0e16932e01a4',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aeea6e4ebbd44a284f8e1078cf3efdaad',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a75a810317afae4c2a93af95f80855d42',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a41774547fd61442443c1967f1a8e8b13',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa41bfc39f4114bbad7186e4b9b480da3',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a84d2573599cb14db8200acded518dd53',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ad3410f599c95c3268541e72f9684f82b',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#aee08a6146cbf90f361a828e6d2ff4ede',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a12bca8c5fdd115d24668beab2bb8ea27',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae203f025f99b18448dfd355a519c4121',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a87a9718ff816d6e1bdd9dca8e067e341',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_partial_rowwise_lamb_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a84dcaeb939254f551d6c356d1eca8747',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#af8829bdb0d543a40bb769900d36ea13e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae9187ee78b193e34f92875da955dc6de',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ae7b604d06f2afe4b8d99b94b6a7ca46f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a65ebc941a004af813be547c2114c6eca',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aaba75f921548599cff242a4033a381c9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad0d4a168e8e591add8c872d4c2fff64a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#afbc119c8f230ecbf041ca9d852021a4a',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a634a690ed27c50d8308bcc0a9bf85acc',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#ad38fb7b8c66635da0517434c661ef2e2',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ac9d49c8094b87daf6025d9195437119e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a86d693b20d7be5e068994e693d970104',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_unweighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ad7474c2dcf75a987f9526e730542ae16',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a76005fdee1a342df4b951b9191967576',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a73ddb7ffe3131b43c027bed87a21da0c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#ad386be3805dc66bcebfcc75ae6ce20ce',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a557205856561135a510a45e915bc0714',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a866fa5e6f036f9befaef0a014527b214',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a15977bf39e5dbde54bc2d1176a9272b9',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a4c67d23288adf2fc636e9db4c30bfa5e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_weighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a18e29f7653534f3a75e41cf3056d2634',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#ad0f3c1412b7b4ddb2f3c5262b27f5b46',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a56d820ab8e2e5c1e815ecbe5e906075e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#aaecc4ec4c793272693a37f0e027dfb93',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a254195fbabfff3c3ad9ba04db100afae',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a2fdb05c57c2efe83f57ce0ccfe97f861',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a28a51c35ffb6aac4d6b35c9b87960129',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a303830fd0513ecd4eb232556376ad2ff',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abacbb190c3b418788aa37c065b93e703',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6f94595430b5a0e8c1597b72f210095f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ae73b050da138bd46bcb186f630a45f1e',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a0f05baa1d7dca3d78338fcd70e11487c',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a1296e33305fd2cde7e9e34e18e7e7905',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a49dd26094cead9644cbc35c29bb5bb21',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a709a4f70083ce173ce40562aa52ad3c8',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abf79428f3dcf0b60bcff9074d587aeaf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a99c23e8020a9ae93a0d0d429c6940707',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a920aba769ec4eba77d74c4cce2f0aa5a',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aacedf2a727684a316ae18abf5670f8e8',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a9354545fca8047a3359cc39269e4531f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a158fb407fba50cda959d3a60cbc01d91',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a0344106c25fea0c6358540ff4bd536f8',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ade29dc18e73de993e107177d9568fbdf',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a913d8fc72158bf301f064c0e60657a18',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a79b96d6a0be54ea86ebd1cadeedd2068',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a66e6adb0beac238f39d443dffa3c0161',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#ad4cbc31bac8a8d965f3549045cd85999',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a30ae1e9efc40a515dca89e5e3ef46565',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4987b540b661f1caa132231f415c45a9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abeb949f70e925c2f8011d973d75645fc',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a08d8db556761e8e68193b2cc8a32a1cc',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ac9a5abe82611fbf748e346094a7b24b2',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae73620aca9ffc6e0cfd3b9cb594bdaf0',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a8275b2b19c2713679e0404cfc50cfc4f',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2af51d716ed8d2b1a926e0f237b76f71',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#ad63ba5d695275d09b7f72a2e3fc6c124',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#afd015e1d0e79f14de8ed5bdf578c81df',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc14cf31cc4a8f906bc7f25d594fafc1',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a63e7a313c891f643c307bd05041a5b54',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#aaddcf08714b3cc33953d207c24e0be7f',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a320b7cb4717a06125d1e05149e7414a9',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6736b927e85af06f2a8f64b95a527f35',1,'__launch_bounds__(kMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aec3f0f560b496881e95413f483dc0c32',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a1bac18bde859aad7fbfb3871a0bacf37',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_nobag_backward_codegen_sgd_unweighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#aaa0317297f080a5b537f22049d8ecbbe',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a9c866240eb5eb8df0da4e1ee803e04cf',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a040a74b95b542902bfb38bacd03202eb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#aa77ffcc8cedf9fe2668e96e9305bdccb',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_unweighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a02bd16452698dd0ae512e183e1ed25bb',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#aab426569c3d6a90703854ec88079c3cf',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ab2b8f92ece6c5a09d11a65969626378d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac60290f3d38a825226fe8014a9274e3d',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ca2ae3bf6df90dd1f3a4bf8b534231e',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#ac83482e2c195bd6662609604217a4903',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_cta_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a412bd503e722e4451e55ef89a4bb3649',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1(const pta:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a5cbbacf7ec8ecfad9f032e7217474f71',1,'__launch_bounds__(kBackwardMaxThreads) void split_embedding_backward_codegen_sgd_weighted_vbe_kernel_warp_per_row_1&lt; uint8_t:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__split__grad_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_find_long_segments(const pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#aea453d06a5b06a7263bbb3c3c598b805',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_count_unique_indices_kernel(const pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#acfcb5a71381871c2d136a1e7ffc68b4c',1,'__launch_bounds__(kMaxThreads) void grad_mean_vbe_kernel(pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__grad_8cu.html#a9cbee37a9474b3f03b3e585c448b63ee',1,'__launch_bounds__(kMaxThreads) void grad_mean_kernel(pta:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a422182213e14442c911aa3ba3ed18a58',1,'__launch_bounds__(kForwardMaxThreads) void split_embedding_codegen_grad_indice_weights_vbe_kernel(const pta:&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ab27358be96fd39a3d879e0e3f942c616',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a830a55ef37b6607a42e4b4cbb6889aa5',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a0178272d43da8f09567a976c98e4617c',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a13a4edf8545bd07a774fe7420e8d397b',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aa128173842fe96c64a581b2efdd5fe7e',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a38384adec04c76c7f4267c8c1cdc7ff7',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_nobag_codegen_forward_unweighted_small_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a40c420d5aadf8202b8a9de25931c44ff',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_weighted_kernel(const pta:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aa272d7ae5549cc1f16cb4761f3edf890',1,'__launch_bounds__(kForwardMaxThreads) __global__ void dense_embedding_codegen_forward_weighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#adf462393afe5c0c395c48cf4f889c6f8',1,'nbit::__launch_bounds__(WarpsPerBlock *kWarpSize) __global__ void FP16_split_embedding_codegen_forward_unweighted_kernel_small_L(const pta'],['../namespacenbit.html#aced6599a5180c2faaff5bbb9bc92f147',1,'nbit::__launch_bounds__(4 *kWarpSize) __global__ void FP16_split_embedding_codegen_forward_unweighted_kernel_small_L&lt; int32_t'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ab08dd38a042ee1b012a6db152e28df6d',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a41deb3b48278a02504f49a2a3dc15cd8',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5ea0ab17f6d9eefd8f00e171c4d8b424',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9b1f7936d16c021a06b52e10047d17c9',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae658cdd019bf968ffa65e519118af108',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#af345685cdddd68d8304b0804863bc611',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a4c26c8149d8b4a96823082303a657531',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_nobag_codegen_forward_unweighted_small_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a98033ae44aee4b9db7201fdad50c28db',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a640269bb96d2014f8c117163f09d8228',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a718566769c1ceda303b72d8876532ea6',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a02d4931cef892bdaf44d3ab510f0d655',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_vbe_kernel(const pta:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a95e359c3e33b1c2fcc6bb83a101c998f',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_unweighted_vbe_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a0f7cdacc2963885ca7eddcf74c44c1e7',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_kernel(const pta:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a183af91deddd1a5f4c5d1657476d2594',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cf7d29de243a1d3d643b7f99420ca73',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a993a3437f132715df009e8cdd7a12806',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_v2_kernel(const emb_t *__restrict__ const dev_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a2b31286ebfaa57f2a8e43418dc0cc2bc',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_vbe_kernel(const pta:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a4e5e2097a867f5ac61d945360d16e1ed',1,'__launch_bounds__(kForwardMaxThreads) __global__ void split_embedding_codegen_forward_weighted_vbe_kernel&lt; uint8_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#ab54a42bb86f9a913d382b4938e3b023f',1,'__launch_bounds__(kMaxThreads) void split_rowwise_adagrad_update_kernel(at:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a34f0bcf2172442db1cd089b529e81d11',1,'__launch_bounds__(kMaxThreads) void split_rowwise_adagrad_update_kernel&lt; uint8_t:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu'],['../embedding__backward__split__grad__template_8cu.html#a2dd7fc517b5148ca80cff10cd7cbcaed',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_codegen_find_long_segments(const pta:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__grad__template_8cu.html#aea453d06a5b06a7263bbb3c3c598b805',1,'__launch_bounds__(kMaxThreads) void split_embedding_backward_count_unique_indices_kernel(const pta:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__kernel__cta__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd',1,'__launch_bounds__(kMaxThreads) void:&#160;embedding_backward_split_kernel_cta_template.cu'],['../embedding__backward__split__kernel__warp__template_8cu.html#aa63bd2cb4cfc6b18191236e0a85bdd26',1,'__launch_bounds__(kBackwardMaxThreads) void:&#160;embedding_backward_split_kernel_warp_template.cu'],['../embedding__backward__split__template_8cu.html#a436fa7b0b61202c628c4ca50bc9b1bcd',1,'__launch_bounds__(kMaxThreads) void:&#160;embedding_backward_split_template.cu'],['../embedding__bounds__check_8cu.html#a9fcdcf37685cd2ec9b88dfac7e77aaaa',1,'__launch_bounds__(kMaxThreads) void bounds_check_indices_kernel(const at:&#160;embedding_bounds_check.cu'],['../namespacenbit.html#a0a75b5eade7f9536629ce45b5827fb31',1,'nbit::__launch_bounds__()'],['../embedding__forward__split__kernel__nobag__small__template_8cu.html#a5c289e92014011ec16430dabf2272ae8',1,'__launch_bounds__(kForwardMaxThreads) __global__ void:&#160;embedding_forward_split_kernel_nobag_small_template.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a9bbd05d6885ea75e7564678a52104538',1,'__launch_bounds__(kForwardMaxThreads, 2048/kForwardMaxThreads) __global__ void split_embedding_codegen_forward_:&#160;embedding_forward_split_kernel_v2_template.cu'],['../embedding__optimizer__split__kernel__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900',1,'__launch_bounds__(kMaxThreads) void split_:&#160;embedding_optimizer_split_kernel_template.cu'],['../embedding__optimizer__split__template_8cu.html#a69cc59925f75e23b97fe9e48e72bb900',1,'__launch_bounds__(kMaxThreads) void split_:&#160;embedding_optimizer_split_template.cu'],['../bench__utils_8cuh.html#a59e0073dcf6e90b2d7a7b38f6210cb50',1,'__launch_bounds__(kMaxThreads) void flush_gpu(char *d_flush:&#160;bench_utils.cuh'],['../namespacefbgemm__gpu.html#a17d5a2e40c83e6e3f5c68e375bf468f7',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) __global__ void embedding_inplace_update_kernel(at'],['../namespacefbgemm__gpu.html#ac93e7c311a1d26fbe8815c8b34a6bde4',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void pruned_array_lookup_from_row_idx_kernel(const at'],['../namespacefbgemm__gpu.html#a50af77e9607a7a96addff8aa8e5e4508',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void to_dense_segment_value_kernel(const int64_t num_lengths'],['../namespacefbgemm__gpu.html#a28846f89e09ae2fc064e73142d83ceef',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_dense_bmm_kernel(const pta'],['../namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_jagged_elementwise_dense_output_kernel_(const pta'],['../namespacefbgemm__gpu.html#afd2e24ffed8f057a2092d699b4cb3cb0',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void jagged_index_add_2d_kernel(at'],['../namespacefbgemm__gpu.html#ac59415a66e49753fb42195f0d816c7c2',1,'fbgemm_gpu::__launch_bounds__(kMaxThreads) void _block_bucketize_sparse_features_cuda_kernel2(int lengths_size'],['../transpose__embedding__input_8cu.html#a91943a24b789081d81916b94ee7789ad',1,'__launch_bounds__(kMaxThreads) void linearize_index_kernel(const at:&#160;transpose_embedding_input.cu'],['../transpose__embedding__input_8cu.html#aee01a74e30c13b20ffba0c0737c44425',1,'__launch_bounds__(kMaxThreads) void linearize_index_index_select_kernel(const at:&#160;transpose_embedding_input.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#a7d15f4b6131224480844be177fe6b28d',1,'__launch_bounds__(kMaxThreads) void masked_index_put_kernel(at:&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#aac79184e1b6e3d831580eba191b6da2e',1,'__launch_bounds__(kMaxThreads) void masked_index_put_kernel(at:&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['_5fbfloat16_5fto_5ffloat_5fcpu_2',['_bfloat16_to_float_cpu',['../namespacefbgemm__gpu.html#ad8c67a657c3008d1d87472f216f7908f',1,'fbgemm_gpu']]],
+  ['_5fbfloat16_5fto_5ffloat_5fgpu_3',['_bfloat16_to_float_gpu',['../group__quantize-ops-cuda.html#ga2076a59fd190690f67c1eddb79b6acc4',1,'fbgemm_gpu']]],
+  ['_5fblock_5fbucketize_5fsparse_5ffeatures_5fcpu_4',['_block_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#adaf7cd0195ff361555f35a017c018d25',1,'fbgemm_gpu']]],
+  ['_5fbucketize_5fsparse_5ffeatures_5fcpu_5',['_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a1f2b214db9aa3f8887c267c0ea9f5edf',1,'fbgemm_gpu']]],
+  ['_5fcat_5fint_5ftensors_6',['_cat_int_tensors',['../namespacefbgemm__gpu.html#acd8fa4397185c592f5eac101b42504a6',1,'fbgemm_gpu']]],
+  ['_5fcat_5fint_5ftensors_5fwith_5fpadding_7',['_cat_int_tensors_with_padding',['../namespacefbgemm__gpu.html#a1376d05f5d6efb4fbdb869e391702adf',1,'fbgemm_gpu']]],
+  ['_5fcat_5fper_5fsample_5fweights_5flist_8',['_cat_per_sample_weights_list',['../namespacefbgemm__gpu.html#a0eec17207e4a69da15dae845d02721e5',1,'fbgemm_gpu']]],
+  ['_5fexpand_5finto_5fjagged_5fpermute_5fcpu_5fkernel_9',['_expand_into_jagged_permute_cpu_kernel',['../namespacefbgemm__gpu.html#ac339123bb72d7421fca2d2b56821f02a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5for_5fhalf_5fto_5ffusednbitrowwise_5fgpu_10',['_float_or_half_to_fusednbitrowwise_gpu',['../group__sparse-data-cuda.html#ga3b963d0e45c2bc0060aaa974efe64b8a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fbfloat16_5fcpu_11',['_float_to_bfloat16_cpu',['../namespacefbgemm__gpu.html#a51665269174ef625316e519465a67839',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fbfloat16_5fgpu_12',['_float_to_bfloat16_gpu',['../group__quantize-ops-cuda.html#ga2f1cc4b6dc6f708324855f94d558cfc1',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffp8rowwise_5fgpu_13',['_float_to_FP8rowwise_gpu',['../group__quantize-ops-cuda.html#ga31b9029d43a60ad1fc90dc6ec54af9db',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffp8rowwise_5fgpu_5ft_14',['_float_to_FP8rowwise_gpu_t',['../namespacefbgemm__gpu.html#a6c5dca8da7ca5c5f89ecdc816745ba29',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fcpu_5fout_15',['_float_to_fused8bitrowwise_cpu_out',['../group__quantize-data-cpu.html#gad38a9310258acccab8a017c1616034d0',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fcpu_5fout_5ft_16',['_float_to_fused8bitrowwise_cpu_out_t',['../namespacefbgemm__gpu.html#a7f58b5ea1ea6cd38a42f73e5d688bb2c',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fgpu_17',['_float_to_fused8bitrowwise_gpu',['../group__quantize-ops-cuda.html#ga8c11c8dc06cae57b3afba79358c00e99',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffused8bitrowwise_5fgpu_5ft_18',['_float_to_fused8bitrowwise_gpu_t',['../namespacefbgemm__gpu.html#a16bbb8557f4229489d966bb1d11bd00c',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fcpu_19',['_float_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a29553ad77238659bb86c14842103d1d5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fgpu_20',['_float_to_fusednbitrowwise_gpu',['../group__quantize-ops-cuda.html#gaa3e8fd136e9bfa0e4d0c0016659bf708',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5ffusednbitrowwise_5fgpu_5ft_21',['_float_to_fusednbitrowwise_gpu_t',['../group__quantize-ops-cuda.html#ga02c8f9158646d9b16efbd3853711f56a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fhfp8_5fcpu_22',['_float_to_hfp8_cpu',['../namespacefbgemm__gpu.html#a70e9b9692aae9789f0a3804b9d12efe5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fhfp8_5fgpu_23',['_float_to_hfp8_gpu',['../group__quantize-ops-cuda.html#gab2837424e3774fe34ba255658554a75a',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fmsfp_5fgpu_24',['_float_to_msfp_gpu',['../group__quantize-ops-cuda.html#ga427f81e1d8901e2fafc9611860fbd4d5',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fpaddedfp8rowwise_5fgpu_25',['_float_to_paddedFP8rowwise_gpu',['../group__quantize-ops-cuda.html#ga5043927653e4d50462b79b7f3df33223',1,'fbgemm_gpu']]],
+  ['_5ffloat_5fto_5fpaddedfp8rowwise_5fgpu_5ft_26',['_float_to_paddedFP8rowwise_gpu_t',['../namespacefbgemm__gpu.html#a1d80140f030f2ca22fd14560e2d8aa42',1,'fbgemm_gpu']]],
+  ['_5ffp8rowwise_5fto_5ffloat_5fgpu_27',['_FP8rowwise_to_float_gpu',['../namespacefbgemm__gpu.html#a70d90c85fad4384b23c8958a6c300ce2',1,'fbgemm_gpu']]],
+  ['_5ffp8rowwise_5fto_5ffloat_5fgpu_5ft_28',['_FP8rowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#ac8931bd574641641dc69eadaae32efe3',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fcpu_5fout_29',['_fused8bitrowwise_to_float_cpu_out',['../group__quantize-data-cpu.html#gabeb6675833a5b14e0a0d01385770a771',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fcpu_5fout_5ft_30',['_fused8bitrowwise_to_float_cpu_out_t',['../namespacefbgemm__gpu.html#acc6b77e9be7ff8c2e5f16297fa6fad38',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fgpu_31',['_fused8bitrowwise_to_float_gpu',['../namespacefbgemm__gpu.html#aab093a380068925d1b267452a1e255c2',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fgpu_5ft_32',['_fused8bitrowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#a25d0793a9d1fe66bccad409791738b7b',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5ffloat_5fmixed_5fdim_5fgpu_33',['_fused8bitrowwise_to_float_mixed_dim_gpu',['../group__quantize-ops-cuda.html#ga4c2c033e940095d20e76e9e00fe925d3',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5fhalf_5fgpu_34',['_fused8bitrowwise_to_half_gpu',['../namespacefbgemm__gpu.html#a3aa2e594cf4bbb5cb5241c4eaa593f8a',1,'fbgemm_gpu']]],
+  ['_5ffused8bitrowwise_5fto_5fsingle_5for_5fhalf_5fprecision_5fgpu_35',['_fused8bitrowwise_to_single_or_half_precision_gpu',['../group__quantize-ops-cuda.html#gafacdb4ec7d8f5b969c75d2127537ab16',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fcpu_36',['_fusednbitrowwise_to_float_cpu',['../namespacefbgemm__gpu.html#aa6141e72712885a0c89d74829be2fe6a',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fgpu_37',['_fusednbitrowwise_to_float_gpu',['../namespacefbgemm__gpu.html#ae0193dd7bbb4e72fc977330cc3f019a4',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5fgpu_5ft_38',['_fusednbitrowwise_to_float_gpu_t',['../group__quantize-ops-cuda.html#gae1e827b74f0825dc4135e68c10e443b3',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5ffloat_5for_5fhalf_5fgpu_39',['_fusednbitrowwise_to_float_or_half_gpu',['../group__quantize-ops-cuda.html#ga07f4c02c95710472b815bdc1d7bfff19',1,'fbgemm_gpu']]],
+  ['_5ffusednbitrowwise_5fto_5fhalf_5fgpu_40',['_fusednbitrowwise_to_half_gpu',['../group__quantize-ops-cuda.html#ga6152517943258bd3adc42b7c103a9277',1,'fbgemm_gpu']]],
+  ['_5fgeneric_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_5fkernel_41',['_generic_histogram_binning_calibration_by_feature_cpu_kernel',['../namespacefbgemm__gpu.html#accd75a24d809f4322a18bfb12f47b343',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffused8bitrowwise_5fcpu_5fout_42',['_half_to_fused8bitrowwise_cpu_out',['../namespacefbgemm__gpu.html#a23bfcbc4afa5dd7d35ee03b7f23840a9',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffused8bitrowwise_5fgpu_43',['_half_to_fused8bitrowwise_gpu',['../namespacefbgemm__gpu.html#adfeb2fc956b7aa5c2446a00ccbcd058e',1,'fbgemm_gpu']]],
+  ['_5fhalf_5fto_5ffusednbitrowwise_5fgpu_44',['_half_to_fusednbitrowwise_gpu',['../group__quantize-ops-cuda.html#ga6e2bd64f3f9e3b36493ec955680771af',1,'fbgemm_gpu']]],
+  ['_5fhfp8_5fto_5ffloat_5fcpu_45',['_hfp8_to_float_cpu',['../namespacefbgemm__gpu.html#aaa8438f606e84d5cb07827759163bec6',1,'fbgemm_gpu']]],
+  ['_5fhfp8_5fto_5ffloat_5fgpu_46',['_hfp8_to_float_gpu',['../group__quantize-ops-cuda.html#ga03a8f8825a16c6235b699886fa46e1f6',1,'fbgemm_gpu']]],
+  ['_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_5fkernel_47',['_histogram_binning_calibration_by_feature_cpu_kernel',['../namespacefbgemm__gpu.html#adce89aa38a4a22058ec42b5077bbe23a',1,'fbgemm_gpu']]],
+  ['_5fhistogram_5fbinning_5fcalibration_5fcpu_5fkernel_48',['_histogram_binning_calibration_cpu_kernel',['../namespacefbgemm__gpu.html#a7639f61a587aa5052c488fbd00d3784b',1,'fbgemm_gpu']]],
+  ['_5finvert_5fpermute_5fcpu_5fkernel_49',['_invert_permute_cpu_kernel',['../namespacefbgemm__gpu.html#a7a8e9e91365de25b995833c08eb32eff',1,'fbgemm_gpu']]],
+  ['_5fmsfp_5fto_5ffloat_5fgpu_50',['_msfp_to_float_gpu',['../group__quantize-ops-cuda.html#gac0c20377454dbfafcc5ac245fe6427ce',1,'fbgemm_gpu']]],
+  ['_5fpaddedfp8rowwise_5fto_5ffloat_5fgpu_51',['_paddedFP8rowwise_to_float_gpu',['../namespacefbgemm__gpu.html#afc30bb56977528d8a85e43f9aa5c2cf8',1,'fbgemm_gpu']]],
+  ['_5fpaddedfp8rowwise_5fto_5ffloat_5fgpu_5ft_52',['_paddedFP8rowwise_to_float_gpu_t',['../namespacefbgemm__gpu.html#a0c0b93e239757d9564c51f8922f17554',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f1d_5findices_5fweights_5fkernel_5fcpu_53',['_permute_1D_indices_weights_kernel_cpu',['../namespacefbgemm__gpu.html#af0e07ade6f2b89bf71c344aac8106b59',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f1d_5flengths_5fcpu_5fkernel_54',['_permute_1D_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a8dfcdb2c902cf1c4e5d0ed916d5fe779',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f2d_5findices_5fweights_5fkernel_5fcpu_55',['_permute_2D_indices_weights_kernel_cpu',['../namespacefbgemm__gpu.html#acad68edeefe7a7710f729cdc56876851',1,'fbgemm_gpu']]],
+  ['_5fpermute_5f2d_5flengths_5fcpu_5fkernel_56',['_permute_2D_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a72c447e3b6d38b548d89ebc464e2d469',1,'fbgemm_gpu']]],
+  ['_5fpermute_5fdata_5fkernel_5fcpu_57',['_permute_data_kernel_cpu',['../namespacefbgemm__gpu.html#a2fb715b347e075f3331083905cdaadfb',1,'fbgemm_gpu']]],
+  ['_5fpermute_5fembeddings_5fkernel_5fcpu_58',['_permute_embeddings_kernel_cpu',['../namespacefbgemm__gpu.html#a6987e1403a25c256168873616dffbdf6',1,'fbgemm_gpu']]],
+  ['_5fpermute_5flengths_5fcpu_5fkernel_59',['_permute_lengths_cpu_kernel',['../namespacefbgemm__gpu.html#a4c7749afd2c661b1d302268035fde42b',1,'fbgemm_gpu']]],
+  ['_5fsegment_5fsum_5fcsr_5fcpu_5fkernel_60',['_segment_sum_csr_cpu_kernel',['../namespacefbgemm__gpu.html#ade08c8b174b0ecbb99d01ad87b4da0b3',1,'fbgemm_gpu']]],
+  ['_5fsingle_5for_5fhalf_5fprecision_5fto_5ffused8bitrowwise_5fgpu_61',['_single_or_half_precision_to_fused8bitrowwise_gpu',['../group__quantize-ops-cuda.html#gaff285349cb9c51a56fc418b628772b16',1,'fbgemm_gpu']]],
+  ['_5fupdate_5fkernel_62',['_update_kernel',['../embedding__optimizer__split__kernel__template_8cu.html#afab484072b9b8381500b14e31ba49364',1,'_update_kernel(at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; dev_weights, at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; uvm_weights, at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_dev_indices, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const int32_t max_D, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, {{ args.split_kernel_args|join(&quot;, &quot;) }}):&#160;embedding_optimizer_split_kernel_template.cu'],['../embedding__optimizer__split__template_8cu.html#afab484072b9b8381500b14e31ba49364',1,'_update_kernel(at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; dev_weights, at::PackedTensorAccessor64&lt; emb_t, 1, at::RestrictPtrTraits &gt; uvm_weights, at::PackedTensorAccessor64&lt; cache_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const at::PackedTensorAccessor32&lt; emb_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_dev_indices, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const at::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const int32_t max_D, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, {{ args.split_kernel_args|join(&quot;, &quot;) }}):&#160;embedding_optimizer_split_kernel_template.cu']]],
+  ['_5fv2_5fkernel_63',['_v2_kernel',['../embedding__forward__split__kernel__v2__template_8cu.html#a20b736346ad19821ed9748c4dde5b058',1,'embedding_forward_split_kernel_v2_template.cu']]]
 ];
diff --git a/search/functions_1.js b/search/functions_1.js
index 81fb97c28..015f6c47c 100644
--- a/search/functions_1.js
+++ b/search/functions_1.js
@@ -1,5 +1,32 @@
 var searchData=
 [
-  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_0',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'split_embeddings_cache_cuda.cuh']]],
-  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_1',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'split_embeddings_cache_cuda.cuh']]]
+  ['accumulate_5ffp16_0',['accumulate_fp16',['../namespacefbgemm__gpu.html#a3de0ed0985acc3edc0583b6cd56a43f2',1,'fbgemm_gpu']]],
+  ['accumulate_5ffp32_1',['accumulate_fp32',['../namespacefbgemm__gpu.html#aeb3ef6437b744f52b29910361f83336c',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fhfp8_2',['accumulate_packed_hfp8',['../namespacefbgemm__gpu.html#acc596fdaac7efc925d19d7374251e8cb',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint2_3',['accumulate_packed_int2',['../namespacefbgemm__gpu.html#a857c58d8bfc412a3901414ef0b0f73c5',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint4_4',['accumulate_packed_int4',['../namespacefbgemm__gpu.html#af3478ab6f636e80a75953ffc1d8caed9',1,'fbgemm_gpu']]],
+  ['accumulate_5fpacked_5fint8_5',['accumulate_packed_int8',['../namespacefbgemm__gpu.html#a24c22ef27a441cb888d3b32957588794',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5ffp16_6',['accumulate_weighted_fp16',['../namespacefbgemm__gpu.html#a2700bcf99c82f2491a174d51c462e4e8',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5ffp32_7',['accumulate_weighted_fp32',['../namespacefbgemm__gpu.html#a7225f36d3ef25f69273160500bd0b9a7',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fhfp8_8',['accumulate_weighted_packed_hfp8',['../namespacefbgemm__gpu.html#aa177a98d987438afcde04f7fc2cba71a',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint2_9',['accumulate_weighted_packed_int2',['../namespacefbgemm__gpu.html#aebe17b37f24d82ea8cfbd296e307d5ab',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint4_10',['accumulate_weighted_packed_int4',['../namespacefbgemm__gpu.html#ade03f1b4099c9ecaf38d7d6a0eb7d595',1,'fbgemm_gpu']]],
+  ['accumulate_5fweighted_5fpacked_5fint8_11',['accumulate_weighted_packed_int8',['../namespacefbgemm__gpu.html#a80d2d456b1c87f68c9098d5e5d1fd47d',1,'fbgemm_gpu']]],
+  ['add_12',['add',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a3421b900475f40701fb4c0c1c542744c',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a5686a6ec8884ddf2ad633d735d181011',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ac26f750f3fa72d8b137026cc8726972f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::add()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1',1,'fbgemm_gpu::Vec4AccT::add(const float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1',1,'fbgemm_gpu::Vec4AccT::add(const float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2',1,'fbgemm_gpu::Vec4AccT::add(const uint8_t *ptr)']]],
+  ['add_5f_13',['add_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; float &gt;::add_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::add_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a3f8a7e8e00c59205f3b32b345290922b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::add_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af3cbc396133203521c050935239eebe2',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::add_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a3f8a7e8e00c59205f3b32b345290922b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::add_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae0cdda7691531bfb7975dad742ff3984',1,'fbgemm_gpu::Vec4T&lt; double &gt;::add_()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf',1,'fbgemm_gpu::Vec4AccT::add_(const float *vals)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549',1,'fbgemm_gpu::Vec4AccT::add_(const half2 *vals_h)']]],
+  ['adjust_5finfo_5fb_5fnum_5fbits_14',['adjust_info_B_num_bits',['../split__embeddings__utils_8cuh.html#aaaa05e63829893f17b951de7dc993747',1,'adjust_info_B_num_bits(int32_t B, int32_t T):&#160;get_infos_metadata.cu'],['../get__infos__metadata_8cu.html#a315ee6fa620a68c902298d741ac8989d',1,'adjust_info_B_num_bits(int32_t B, int32_t T):&#160;get_infos_metadata.cu']]],
+  ['adjust_5foffset_5fkernel_15',['adjust_offset_kernel',['../embedding__bounds__check_8cu.html#af9e26c2f2d6dfef45e1a12507d8c2b72',1,'embedding_bounds_check.cu']]],
+  ['all_5fto_5fone_5fdevice_16',['all_to_one_device',['../group__merge-pooled-emb.html#ga3933c7465129b58edd60ffcc1999c223',1,'fbgemm_gpu']]],
+  ['assign_17',['assign',['../namespacefbgemm__gpu.html#a6e69d027d43eb7e92ea620d43ae43cb1',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_18',['asynchronous_complete_cumsum',['../transpose__embedding__input_8cu.html#ae27e2b1fda2a338ce8f7f2207b580e7f',1,'transpose_embedding_input.cu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fcpu_19',['asynchronous_complete_cumsum_cpu',['../namespacefbgemm__gpu.html#a98effac974dc3fe5bbcc4ce8a75578f7',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fgpu_20',['asynchronous_complete_cumsum_gpu',['../namespacefbgemm__gpu.html#a1f31ee9922c98ad5d013361368f2f5ac',1,'fbgemm_gpu']]],
+  ['asynchronous_5fcomplete_5fcumsum_5fmeta_21',['asynchronous_complete_cumsum_meta',['../namespacefbgemm__gpu.html#a656bb5222f2a0bc92d5b895ba0fa846c',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fcpu_22',['asynchronous_exclusive_cumsum_cpu',['../namespacefbgemm__gpu.html#a69fe5be794026bdb73b0196be9b345a4',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fgpu_23',['asynchronous_exclusive_cumsum_gpu',['../namespacefbgemm__gpu.html#afd8b0919b5b3b021a8eb3727e304d5b4',1,'fbgemm_gpu']]],
+  ['asynchronous_5fexclusive_5fcumsum_5fmeta_24',['asynchronous_exclusive_cumsum_meta',['../namespacefbgemm__gpu.html#ae96f1ffdb8ed1efd58561364fbaf3c6a',1,'fbgemm_gpu']]],
+  ['asynchronous_5finclusive_5fcumsum_5fcpu_25',['asynchronous_inclusive_cumsum_cpu',['../namespacefbgemm__gpu.html#a8930419ab36c85750182c12db95baa29',1,'fbgemm_gpu']]],
+  ['asynchronous_5finclusive_5fcumsum_5fgpu_26',['asynchronous_inclusive_cumsum_gpu',['../namespacefbgemm__gpu.html#acc0c0e7f6e816900474b2e52756ac891',1,'fbgemm_gpu']]],
+  ['at_27',['at',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0',1,'fbgemm_gpu::TensorAccessorBase::at()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a95ed732ddbdd788721e2c0fc17a3d8a0',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::at()']]],
+  ['auc_5fkernel_28',['auc_kernel',['../namespacefbgemm__gpu.html#a4bcadae3f465ece7979bf89f0c1cf22a',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_10.js b/search/functions_10.js
new file mode 100644
index 000000000..9a5cef712
--- /dev/null
+++ b/search/functions_10.js
@@ -0,0 +1,61 @@
+var searchData=
+[
+  ['pack_5fsegments_5fautograd_0',['pack_segments_autograd',['../namespacefbgemm__gpu.html#a24fd2f4efa543ea716010c3fc1832587',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fbackward_5fcpu_1',['pack_segments_backward_cpu',['../namespacefbgemm__gpu.html#a51f0921a8e934c6c4d0fca5ebb5d8338',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fbackward_5fcuda_2',['pack_segments_backward_cuda',['../namespacefbgemm__gpu.html#aaded8e25bef3a32580d71dc2ead25f0c',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcpu_3',['pack_segments_cpu',['../namespacefbgemm__gpu.html#a01151883c1840f280f4f9c083677c8b5',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcuda_4',['pack_segments_cuda',['../namespacefbgemm__gpu.html#a049c248a78797b27f5e053809c13b88e',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fcuda_5fkernel_5',['pack_segments_cuda_kernel',['../namespacefbgemm__gpu.html#a3ff1eed5a38a10b4da916f9ec154f225',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fforward_5fcpu_6',['pack_segments_forward_cpu',['../namespacefbgemm__gpu.html#a49cb5dd543cc63e932f458e1c79c0d00',1,'fbgemm_gpu']]],
+  ['pack_5fsegments_5fforward_5fcuda_7',['pack_segments_forward_cuda',['../namespacefbgemm__gpu.html#a4bec138cb5be2583288d026eb4185646',1,'fbgemm_gpu']]],
+  ['padded_5fd_8',['padded_D',['../namespacenbit.html#a45a36e2eb0376c3e37728ea312851cd7',1,'nbit']]],
+  ['padded_5frow_5fsize_5fin_5fbytes_9',['padded_row_size_in_bytes',['../namespacenbit.html#a3ac5bf25115544f9067032bef644a215',1,'nbit']]],
+  ['padding_5ffused_5ftbe_5finput_5fcombine_5fcpu_10',['padding_fused_tbe_input_combine_cpu',['../group__input-combine.html#ga9ab60fbe75053c2f31f7d3f16dfa476f',1,'fbgemm_gpu']]],
+  ['padding_5ffused_5ftbe_5finput_5fcombine_5fwith_5flength_5fcpu_11',['padding_fused_tbe_input_combine_with_length_cpu',['../namespacefbgemm__gpu.html#af01b4023830652f0cc3e99c87f7b4526',1,'fbgemm_gpu']]],
+  ['permute102_5fbaddbmm_5fpermute102_5fcpu_12',['permute102_baddbmm_permute102_cpu',['../namespacefbgemm__gpu.html#ab8d862f0ffee51a4d276f3989f0ab24b',1,'fbgemm_gpu']]],
+  ['permute102_5fbaddbmm_5fpermute102_5fcuda_13',['permute102_baddbmm_permute102_cuda',['../namespacefbgemm__gpu.html#a0c3f53164eb98c0b45b5aaef3e99a172',1,'fbgemm_gpu']]],
+  ['permute_5f1d_5fsparse_5fdata_5fcpu_14',['permute_1D_sparse_data_cpu',['../namespacefbgemm__gpu.html#a22758d46158e49801e876ab269855736',1,'fbgemm_gpu']]],
+  ['permute_5f2d_5fsparse_5fdata_5fcpu_15',['permute_2D_sparse_data_cpu',['../namespacefbgemm__gpu.html#a83da584464d49a223941e4b926b9676a',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fcpu_16',['permute_duplicate_pooled_embs_auto_grad_cpu',['../namespacefbgemm__gpu.html#aeabdb24bef8b30a2b80b94a676b2b5fb',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fgpu_17',['permute_duplicate_pooled_embs_auto_grad_gpu',['../namespacefbgemm__gpu.html#a242a088c94da1f0b016087bef8460622',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fcpu_18',['permute_duplicate_pooled_embs_auto_grad_split_cpu',['../namespacefbgemm__gpu.html#af0cdb20f76a1c62644ad644e4c7210ad',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fgpu_19',['permute_duplicate_pooled_embs_auto_grad_split_gpu',['../namespacefbgemm__gpu.html#a276c76fa5487668edb8477a844ca1704',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fcpu_20',['permute_duplicate_pooled_embs_cpu',['../namespacefbgemm__gpu.html#acc5af8d2639bda183a7758a7fb4d4e9a',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fgpu_21',['permute_duplicate_pooled_embs_gpu',['../namespacefbgemm__gpu.html#aecf7e9c2b36bb349c98294b9abfcf7c1',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fsplit_5fcpu_22',['permute_duplicate_pooled_embs_split_cpu',['../namespacefbgemm__gpu.html#a286571e933b530189672faaa53ee20e6',1,'fbgemm_gpu']]],
+  ['permute_5fduplicate_5fpooled_5fembs_5fsplit_5fgpu_23',['permute_duplicate_pooled_embs_split_gpu',['../namespacefbgemm__gpu.html#a34e792da7d58bd96fc1c9d4c0b1b3a2a',1,'fbgemm_gpu']]],
+  ['permute_5fembeddings_5fkernel_24',['permute_embeddings_kernel',['../namespacefbgemm__gpu.html#a2b00efff9050b6bec363081afc5c3c2f',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_25',['permute_pooled_embs_auto_grad',['../group__permute-pooled-embs-cpu.html#ga3fd0766d863a18ea5cce4bfdef6a0349',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fcpu_26',['permute_pooled_embs_auto_grad_cpu',['../group__permute-pooled-embs-cpu.html#gac050c22198470709b89b4d5b160006b0',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fgpu_27',['permute_pooled_embs_auto_grad_gpu',['../group__permute-pooled-embs-gpu.html#gad0d8a6f85fc81bc54e4c20e60fe6eb11',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fmeta_28',['permute_pooled_embs_auto_grad_meta',['../namespacefbgemm__gpu.html#a4381e6e500aad1cf049aa509fc17b16b',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fcpu_29',['permute_pooled_embs_auto_grad_split_cpu',['../group__permute-pooled-embs-cpu.html#ga62bb71eb3e7a980ce5efded317717189',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fauto_5fgrad_5fsplit_5fgpu_30',['permute_pooled_embs_auto_grad_split_gpu',['../group__permute-pooled-embs-gpu.html#gab5673b48b58896e4954cc8fc7c90c4d8',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fcpu_31',['permute_pooled_embs_cpu',['../namespacefbgemm__gpu.html#aa321302401045119810e93f42a361f1f',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fcpu_5fimpl_32',['permute_pooled_embs_cpu_impl',['../group__permute-pooled-embs-cpu.html#ga39797562608b1226fc1632f815f7d8a2',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fgpu_33',['permute_pooled_embs_gpu',['../namespacefbgemm__gpu.html#a9b4a18abd526ab3e9c95f782d87afbbb',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fgpu_5fimpl_34',['permute_pooled_embs_gpu_impl',['../namespacefbgemm__gpu.html#aca0e73083114d9eea99129e54b89fa23',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fkernel_35',['permute_pooled_embs_kernel',['../layout__transform__ops_8cuh.html#acf1671783450ed8e673d22cbc1d917b5',1,'layout_transform_ops.cuh']]],
+  ['permute_5fpooled_5fembs_5fmeta_36',['permute_pooled_embs_meta',['../namespacefbgemm__gpu.html#a1183d2ce4456d290df04c32b215fc22e',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fcpu_37',['permute_pooled_embs_split_cpu',['../group__permute-pooled-embs-cpu.html#ga21fd23f8f0de62159529356ebf7eb1f1',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fcpu_5fimpl_38',['permute_pooled_embs_split_cpu_impl',['../namespacefbgemm__gpu.html#a9ce974f08ff3cb46289f39af5ea7fcec',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fgpu_39',['permute_pooled_embs_split_gpu',['../group__permute-pooled-embs-gpu.html#ga342967f8cc4e25c7655d1987536cdc6b',1,'fbgemm_gpu']]],
+  ['permute_5fpooled_5fembs_5fsplit_5fgpu_5fimpl_40',['permute_pooled_embs_split_gpu_impl',['../namespacefbgemm__gpu.html#a0d587655a374b11bb6b7febcabe0f403',1,'fbgemm_gpu']]],
+  ['permute_5fsequence_5fembeddings_5fcpu_41',['permute_sequence_embeddings_cpu',['../namespacefbgemm__gpu.html#a6c601604b9a15b45176ad42d4ca04d7d',1,'fbgemm_gpu']]],
+  ['permute_5fsequence_5fembeddings_5fcuda_42',['permute_sequence_embeddings_cuda',['../namespacefbgemm__gpu.html#a713a7245a4295a57007802212dca05ee',1,'fbgemm_gpu']]],
+  ['permute_5fsparse_5ffeatures_5fcpu_43',['permute_sparse_features_cpu',['../namespacefbgemm__gpu.html#a7eec8c74f87d4204857061b761a17ede',1,'fbgemm_gpu']]],
+  ['prefix_5fsum_44',['prefix_sum',['../namespacefbgemm__gpu.html#a82c664395e6340a5878c867fcf278bfc',1,'fbgemm_gpu']]],
+  ['process_5fall_5findices_5flarge_5fls_45',['process_all_indices_large_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ad4f576c80cbb86fce55f5420968bc826',1,'process_all_indices_large_Ls(long *const smem, const uint32_t L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['process_5fall_5findices_5fno_5fpooling_46',['process_all_indices_no_pooling',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a02fb6083bc1f3a1c39dabb7818866a46',1,'process_all_indices_no_pooling(long *const smem, const bool process_d, const uint32_t params_offset):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['process_5fall_5findices_5fsmall_5fls_47',['process_all_indices_small_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a871fb6b516157e559e3ed26b56e4245c',1,'process_all_indices_small_Ls(long *const smem, const uint32_t total_L, const bool process_d, const bool mean_pooling, const uint32_t params_offset, const uint32_t max_D_cache):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['pruned_5farray_5flookup_5fcpu_48',['pruned_array_lookup_cpu',['../group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5',1,'pruned_array_lookup_cpu(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga50d9da3c5bc1fe8b9cabfbda212c2ea5',1,'pruned_array_lookup_cpu(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5farray_5flookup_5fcuda_49',['pruned_array_lookup_cuda',['../group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff',1,'pruned_array_lookup_cuda(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;embedding_forward_quantized_split_lookup.cu'],['../group__embedding-cuda.html#gaea1d3ae26d1e893ccf08f8b55b3d6eff',1,'pruned_array_lookup_cuda(Tensor indices, Tensor offsets, Tensor index_remappings, Tensor index_remappings_offsets):&#160;embedding_forward_quantized_split_lookup.cu']]],
+  ['pruned_5farray_5flookup_5ffrom_5frow_5fidx_5fcpu_50',['pruned_array_lookup_from_row_idx_cpu',['../namespacefbgemm__gpu.html#ab57019812325465b62248776bb200885',1,'fbgemm_gpu']]],
+  ['pruned_5farray_5flookup_5ffrom_5frow_5fidx_5fcuda_51',['pruned_array_lookup_from_row_idx_cuda',['../namespacefbgemm__gpu.html#adda552b8784184a2f17aa997e10869f9',1,'fbgemm_gpu']]],
+  ['pruned_5fhash_5ffunction_52',['pruned_hash_function',['../namespacenbit.html#adf6ceb44691d377239880812db632ef7',1,'nbit']]],
+  ['pruned_5fhashmap_5finsert_5funweighted_5fcpu_53',['pruned_hashmap_insert_unweighted_cpu',['../group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad',1,'pruned_hashmap_insert_unweighted_cpu(Tensor indices, Tensor dense_indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga5b5d3d94a399c14899a4410d1f5e7dad',1,'pruned_hashmap_insert_unweighted_cpu(Tensor indices, Tensor dense_indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5finsert_5fweighted_5fcpu_54',['pruned_hashmap_insert_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a446403a1c26f7fecbc1c67fd9be87bf0',1,'gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5flookup_5fcuda_55',['pruned_hashmap_lookup_cuda',['../group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7',1,'pruned_hashmap_lookup_cuda(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;embedding_forward_quantized_split_lookup.cu'],['../group__embedding-cuda.html#ga1adb0a98306b7d6f839b5fbcaaa44ec7',1,'pruned_hashmap_lookup_cuda(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;embedding_forward_quantized_split_lookup.cu']]],
+  ['pruned_5fhashmap_5flookup_5funweighted_5fcpu_56',['pruned_hashmap_lookup_unweighted_cpu',['../group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211',1,'pruned_hashmap_lookup_unweighted_cpu(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../group__embedding-cpu.html#ga2c64467f516cc9caf72cb94e9913b211',1,'pruned_hashmap_lookup_unweighted_cpu(Tensor indices, Tensor offsets, Tensor hash_table, Tensor hash_table_offsets):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['pruned_5fhashmap_5flookup_5fweighted_5fcpu_57',['pruned_hashmap_lookup_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#ae0d1d716d565d7e70bd253dcd89d7f47',1,'gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]]
+];
diff --git a/search/functions_11.js b/search/functions_11.js
new file mode 100644
index 000000000..95f55fdce
--- /dev/null
+++ b/search/functions_11.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['quantize_5fstore_0',['quantize_store',['../namespacefbgemm__gpu.html#af5bbc85156e52ab097bb0f770a2f63e7',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_12.js b/search/functions_12.js
new file mode 100644
index 000000000..d3b1b6222
--- /dev/null
+++ b/search/functions_12.js
@@ -0,0 +1,24 @@
+var searchData=
+[
+  ['recat_5fcopy_5fasync_5fkernel_0',['recat_copy_async_kernel',['../layout__transform__ops_8cuh.html#a2f3c62685f843be282e18a9805d8ad5c',1,'layout_transform_ops.cuh']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fcuda_1',['recat_embedding_grad_output_cuda',['../group__layout-transform-cuda.html#ga09438223bb710af7f55fb6d25fc9d99f',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fbatch_5fcuda_2',['recat_embedding_grad_output_mixed_D_batch_cuda',['../group__layout-transform-cuda.html#gad5cabc0ba0ee6dfd8a8de4e5825c62e9',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fcpu_3',['recat_embedding_grad_output_mixed_D_cpu',['../group__layout-transform-cpu.html#ga8edc2bee42577b7eeb76613b52d62311',1,'fbgemm_gpu']]],
+  ['recat_5fembedding_5fgrad_5foutput_5fmixed_5fd_5fcuda_4',['recat_embedding_grad_output_mixed_D_cuda',['../group__layout-transform-cuda.html#gaf753887183c2603a01978463228a0343',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5findices_5fcpu_5',['reorder_batched_ad_indices_cpu',['../namespacefbgemm__gpu.html#a71657f0dff28b74e6cb71f2e70adba96',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5findices_5fcpu_5f_6',['reorder_batched_ad_indices_cpu_',['../namespacefbgemm__gpu.html#abe2eef805cfc20b2d3ba69e3db973688',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5findices_5fgpu_7',['reorder_batched_ad_indices_gpu',['../namespacefbgemm__gpu.html#a10ae2e750abd260fb3dc2deb5e6a10a6',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5f_8',['reorder_batched_ad_lengths_',['../namespacefbgemm__gpu.html#a87472f171b785c3735bc88d72c8ddd9e',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5fcpu_9',['reorder_batched_ad_lengths_cpu',['../namespacefbgemm__gpu.html#aee6a046b2315137787cced8d9942a248',1,'fbgemm_gpu']]],
+  ['reorder_5fbatched_5fad_5flengths_5fgpu_10',['reorder_batched_ad_lengths_gpu',['../namespacefbgemm__gpu.html#af398efd1fa34f78e6882f7691aa99fa9',1,'fbgemm_gpu']]],
+  ['report_5fembedding_5ferror_11',['report_embedding_error',['../namespacefbgemm__gpu.html#a17e57fc2dca2d6df09e26f3eec69464c',1,'fbgemm_gpu']]],
+  ['reset_12',['reset',['../structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e',1,'fbgemm_gpu::Vec4AccT']]],
+  ['reset_5fweight_5fmomentum_5fcuda_13',['reset_weight_momentum_cuda',['../group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79',1,'reset_weight_momentum_cuda(at::Tensor dev_weights, at::Tensor uvm_weights, at::Tensor lxu_cache_weights, at::Tensor weights_placements, at::Tensor weights_offsets, at::Tensor momentum1_dev, at::Tensor momentum1_uvm, at::Tensor momentum1_placements, at::Tensor momentum1_offsets, at::Tensor D_offsets, at::Tensor pruned_indices, at::Tensor pruned_indices_offsets, at::Tensor logical_table_ids, at::Tensor buffer_ids, at::Tensor cache_hash_size_cumsum, at::Tensor lxu_cache_state, int64_t total_cache_hash_size):&#160;reset_weight_momentum.cu'],['../group__table-batched-embed-cuda.html#ga59334fdad832f8d67576e6c83a9b9d79',1,'reset_weight_momentum_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor lxu_cache_weights, Tensor weights_placements, Tensor weights_offsets, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor D_offsets, Tensor pruned_indices, Tensor pruned_indices_offsets, Tensor logical_table_ids, Tensor buffer_ids, Tensor cache_hash_size_cumsum, Tensor lxu_cache_state, int64_t total_cache_hash_size):&#160;reset_weight_momentum.cu']]],
+  ['rk_5fdouble_14',['rk_double',['../namespacefbgemm__gpu.html#af9dc4afe0a87b2326caf53649eee20eb',1,'fbgemm_gpu']]],
+  ['rk_5frandom_15',['rk_random',['../namespacefbgemm__gpu.html#a3914fbd6fed76ebe8d05a1967ec5ccb9',1,'fbgemm_gpu']]],
+  ['rk_5fseed_16',['rk_seed',['../namespacefbgemm__gpu.html#ad56b0e8dd76a57dcc1e268831fe58abb',1,'fbgemm_gpu']]],
+  ['rk_5fzipf_17',['rk_zipf',['../namespacefbgemm__gpu.html#ac4468c32ea6dc23cc2d7bded57a53119',1,'fbgemm_gpu']]],
+  ['round_5fdown_18',['round_down',['../namespacefbgemm__gpu.html#afad69123afbd407f6cd94913da47680e',1,'fbgemm_gpu']]],
+  ['round_5fup_19',['round_up',['../namespacenbit.html#a3f668dd605c2700542424899b9df54c6',1,'nbit']]],
+  ['run_5femulate_5fcache_5fmiss_20',['run_emulate_cache_miss',['../uvm__cache__miss__emulate__test_8cpp.html#ac9959da4e8495e9b74415473535a9c3e',1,'uvm_cache_miss_emulate_test.cpp']]]
+];
diff --git a/search/functions_13.js b/search/functions_13.js
new file mode 100644
index 000000000..85b1ae634
--- /dev/null
+++ b/search/functions_13.js
@@ -0,0 +1,139 @@
+var searchData=
+[
+  ['segment_5fsum_5fcsr_5fcpu_0',['segment_sum_csr_cpu',['../namespacefbgemm__gpu.html#a678327561759694192908f1f111424f7',1,'fbgemm_gpu']]],
+  ['segment_5fsum_5fcsr_5fcuda_1',['segment_sum_csr_cuda',['../namespacefbgemm__gpu.html#a8ae9711da44e5cd4a81f95a762b41180',1,'fbgemm_gpu']]],
+  ['set_2',['set',['../classssd_1_1_embedding_rocks_d_b.html#a1951c5647b663fc955ee1076f68190ec',1,'ssd::EmbeddingRocksDB']]],
+  ['set_5fcuda_3',['set_cuda',['../classssd_1_1_embedding_rocks_d_b.html#a1b6c5343b7eafae73491f0749f1151a9',1,'ssd::EmbeddingRocksDB']]],
+  ['set_5fstochastic_5frounding_4',['set_stochastic_rounding',['../structfbgemm__gpu_1_1_weight_row.html#a4548dbb10be8705cf81e3e2362f1cea3',1,'fbgemm_gpu::WeightRow']]],
+  ['shfl_5fdown_5fsync_5',['shfl_down_sync',['../namespacefbgemm__gpu.html#a52eb62356a603284f18652bc195274ea',1,'fbgemm_gpu']]],
+  ['shfl_5fsync_6',['shfl_sync',['../namespacefbgemm__gpu.html#a9b3fcf49a28b6524c8db8c7c523e1798',1,'fbgemm_gpu']]],
+  ['shfl_5fxor_7',['shfl_xor',['../namespacefbgemm__gpu.html#a17b07e8668ed9b29a8b37d21a829723d',1,'fbgemm_gpu']]],
+  ['should_5fprune_8',['should_prune',['../namespacefbgemm__gpu.html#a4ae09e478c1e9d6a414935fb6cf60f99',1,'fbgemm_gpu']]],
+  ['size_9',['size',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d',1,'fbgemm_gpu::TensorAccessorBase::size()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a53408e729e4cd52d06e5c577afbfcf9d',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::size()']]],
+  ['sizes_10',['sizes',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a5b7afa180d3bd84115f26a365b167e5e',1,'fbgemm_gpu::TensorAccessorBase']]],
+  ['sort_11',['sort',['../structfbgemm__gpu_1_1_bitonic_sort.html#ae729c535b885ed8e2aca6d99ef51e4b0',1,'fbgemm_gpu::BitonicSort']]],
+  ['split_5fadagrad_5ftable_5fupdate_5fkernel_12',['split_adagrad_table_update_kernel',['../gen__embedding__optimizer__adagrad__split__device__kernel_8cuh.html#aae2b7a37c2c14a8e8575336d88932f5e',1,'gen_embedding_optimizer_adagrad_split_device_kernel.cuh']]],
+  ['split_5fadam_5ftable_5fupdate_5fkernel_13',['split_adam_table_update_kernel',['../gen__embedding__optimizer__adam__split__device__kernel_8cuh.html#a415ebd6751961f1e6826cfe2712cc85e',1,'gen_embedding_optimizer_adam_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5ftable_5fupdate_5fkernel_14',['split_approx_rowwise_adagrad_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__split__device__kernel_8cuh.html#a9263ef077d631b455021b5cfe68d9632',1,'gen_embedding_optimizer_approx_rowwise_adagrad_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5ftable_5fupdate_5fkernel_15',['split_approx_rowwise_adagrad_with_counter_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#a2f7931888711cbd1dff1f7fda564b3a5',1,'gen_embedding_optimizer_approx_rowwise_adagrad_with_counter_split_device_kernel.cuh']]],
+  ['split_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ftable_5fupdate_5fkernel_16',['split_approx_rowwise_adagrad_with_weight_decay_table_update_kernel',['../gen__embedding__optimizer__approx__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#a30fdc78bf391825590b69585779a9baf',1,'gen_embedding_optimizer_approx_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh']]],
+  ['split_5fapprox_5fsgd_5ftable_5fupdate_5fkernel_17',['split_approx_sgd_table_update_kernel',['../gen__embedding__optimizer__approx__sgd__split__device__kernel_8cuh.html#abcf3f2a323ec4155270a5fcfffecd462',1,'gen_embedding_optimizer_approx_sgd_split_device_kernel.cuh']]],
+  ['split_5fdense_5ftable_5fupdate_5fkernel_18',['split_dense_table_update_kernel',['../gen__embedding__optimizer__dense__split__device__kernel_8cuh.html#a9a55851e1eec2af9f174c94e138a4aa7',1,'gen_embedding_optimizer_dense_split_device_kernel.cuh']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5fcpu_19',['split_embedding_backward_codegen_adagrad_cpu',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca',1,'split_embedding_backward_codegen_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__adagrad__cpu_8cpp.html#a5e9389fec0497e9f90df6043627319ca',1,'split_embedding_backward_codegen_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5funweighted_5fexact_5fcuda_20',['split_embedding_backward_codegen_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#a1207210a9545e9575750541d0b87d2ff',1,'split_embedding_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#a06b1cf5ad03a298c5257a31b33524398',1,'split_embedding_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadagrad_5fweighted_5fexact_5fcuda_21',['split_embedding_backward_codegen_adagrad_weighted_exact_cuda',['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#a0e8cc9d4217b55864ac828677d7d546d',1,'split_embedding_backward_codegen_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#affb9be553e49e7bea6a6c3f60b63dc04',1,'split_embedding_backward_codegen_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadam_5funweighted_5fexact_5fcuda_22',['split_embedding_backward_codegen_adam_unweighted_exact_cuda',['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#a7c3fa518fa48a831ea3f8e691672808e',1,'split_embedding_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#ae27a3d26d13d596aaaa1e621990e0d71',1,'split_embedding_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fadam_5fweighted_5fexact_5fcuda_23',['split_embedding_backward_codegen_adam_weighted_exact_cuda',['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#aea34407b88c9df5b3be55e8ea24a347d',1,'split_embedding_backward_codegen_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a8e4ae3bed221149c3b3ab6a5c0f38605',1,'split_embedding_backward_codegen_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_24',['split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#a346e3b137705a7c27ea4448090c853ca',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#afbce26182226d45104cf25fc6ebf90df',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fweighted_5fexact_5fcuda_25',['split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a1ff3b73be256bfc5b6a6a92c35f5c101',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ae5ec715aff7b59ae2cd64991053a8744',1,'split_embedding_backward_codegen_approx_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5fcpu_26',['split_embedding_backward_codegen_dense_cpu',['../gen__embedding__backward__dense__split__cpu_8cpp.html#a9872de3651e55555a2bea1c407c45c5d',1,'split_embedding_backward_codegen_dense_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, double unused=0):&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../embedding__backward__dense__host__cpu_8cpp.html#a16114b295cd4bb55fd704d1cc575284f',1,'split_embedding_backward_codegen_dense_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, double unused):&#160;gen_embedding_backward_dense_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5funweighted_5fexact_5fcuda_27',['split_embedding_backward_codegen_dense_unweighted_exact_cuda',['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af39484621a2a43237ee275c7d9497e16',1,'split_embedding_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aebdb9ab2fd0166beebd42528ea223ac4',1,'split_embedding_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fdense_5fweighted_5fexact_5fcuda_28',['split_embedding_backward_codegen_dense_weighted_exact_cuda',['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#aeae20f9c1a93bb4297f2710fe00723a2',1,'split_embedding_backward_codegen_dense_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a4a920500b84d7febde7964cfa515c690',1,'split_embedding_backward_codegen_dense_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flamb_5funweighted_5fexact_5fcuda_29',['split_embedding_backward_codegen_lamb_unweighted_exact_cuda',['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#a45b16bde5dcd4ed361824c02fb19aa28',1,'split_embedding_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abafaac43ca0a5d04be6280c0db92ef81',1,'split_embedding_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flamb_5fweighted_5fexact_5fcuda_30',['split_embedding_backward_codegen_lamb_weighted_exact_cuda',['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#ac26e29ea75fba6b9f3922118cd293b96',1,'split_embedding_backward_codegen_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a2cb504a8487e7581fcf600c9dd9bb4da',1,'split_embedding_backward_codegen_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flars_5fsgd_5funweighted_5fexact_5fcuda_31',['split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#a68717d5b465de7efb3f58ca7f1c9c48e',1,'split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#ad6a69a83e0c09e08c8854f3a988349c2',1,'split_embedding_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5flars_5fsgd_5fweighted_5fexact_5fcuda_32',['split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#a3eff146e8f81f6d6dcc6e08f791b1c27',1,'split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a592a95a9e623ca87fb31c88bc11ef217',1,'split_embedding_backward_codegen_lars_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fnone_5funweighted_5fexact_5fcuda_33',['split_embedding_backward_codegen_none_unweighted_exact_cuda',['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#ac780b945eb2c0cff713ff7280122da42',1,'split_embedding_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#ab8077c80baaf216fec8c7c0c81cd0c29',1,'split_embedding_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fnone_5fweighted_5fexact_5fcuda_34',['split_embedding_backward_codegen_none_weighted_exact_cuda',['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#a12b41a32a38b812420382dfb33a09e17',1,'split_embedding_backward_codegen_none_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a7808efa8b7d1caa4534528c97b55a26b',1,'split_embedding_backward_codegen_none_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5funweighted_5fexact_5fcuda_35',['split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#a4d39b6b803c05c33caf58b4a2fbf37ac',1,'split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a3d1da3b63c8a16884d3de8d52c0b99fd',1,'split_embedding_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5fweighted_5fexact_5fcuda_36',['split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#ac295880f03c86cb263b324158e460e82',1,'split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aaa1e9d0adf68022fa575a63182a95745',1,'split_embedding_backward_codegen_partial_rowwise_adam_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5funweighted_5fexact_5fcuda_37',['split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#a561ce0f1da43ca47001db85a395203e1',1,'split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ab047f1b46e810b2a48f66387d37cd588',1,'split_embedding_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5fweighted_5fexact_5fcuda_38',['split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#a70ac0537228900edc94bbd437c550a15',1,'split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a6619694897abaeee44b975fa9614d7e3',1,'split_embedding_backward_codegen_partial_rowwise_lamb_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fcpu_39',['split_embedding_backward_codegen_rowwise_adagrad_cpu',['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360',1,'split_embedding_backward_codegen_rowwise_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#a73c1fd212c2c324e57b0f906a2598360',1,'split_embedding_backward_codegen_rowwise_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fcuda_40',['split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#aca4e3268cb308c63a299f50cde66dec1',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad73707297535524e1eeff86f23adfdfa',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fvbe_5fcuda_41',['split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#a85ffab9880f2b1221f86a7f63c088096',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae52a1e89225c55716b2505ef0b14b32c',1,'split_embedding_backward_codegen_rowwise_adagrad_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fweighted_5fexact_5fcuda_42',['split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#a9e02b82c5db58357a98bc86454c2d7a5',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a394f3f0a5cbe256e703c0bb34bfe50b3',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fweighted_5fexact_5fvbe_5fcuda_43',['split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda',['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#a0266589d7dcf9f22a9398090ae16abac',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af257dbbdb6a2c64fdb2e038bb39190c1',1,'split_embedding_backward_codegen_rowwise_adagrad_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5fcpu_44',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_host, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_host, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#a2e90723fcad83f3054bc6f661de849c1',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_host, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_host, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5funweighted_5fexact_5fcuda_45',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#afa64170f02313b2766c2cc3e25d2f5a9',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#aea7503341318b3b0142a83d310046516',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5fweighted_5fexact_5fcuda_46',['split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#aeed29f5cd2c5bacfd4ed37b2381c128b',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a07c978ecc3495651d0123d01876f68ca',1,'split_embedding_backward_codegen_rowwise_adagrad_with_counter_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_47',['split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#acc9cd7c72b1624ec0df8d9f4edbde2cb',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a9f5e043a0a43d92b7a748c27e6ce8060',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5fweighted_5fexact_5fcuda_48',['split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#a969bc368ad46c57ab47feac737df5001',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a6cb23330ccfc55cc78d828d1fd8b59fb',1,'split_embedding_backward_codegen_rowwise_adagrad_with_weight_decay_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5fcpu_49',['split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu',['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#acb5592b9d0b5b9344302f69c0f1be10b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, Tensor momentum1_host, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5funweighted_5fexact_5fcuda_50',['split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#a10025996061290114d6060505057ce7b',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a3a9f041d93d95908fbe76052c3d48a3e',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5fweighted_5fexact_5fcuda_51',['split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#a74ae14449034e73352a950be7faee8cd',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aad0ff2a4c042997b9969d779d3c91c59',1,'split_embedding_backward_codegen_rowwise_weighted_adagrad_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fcpu_52',['split_embedding_backward_codegen_sgd_cpu',['../gen__embedding__backward__sgd__split__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa',1,'split_embedding_backward_codegen_sgd_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__split__sgd__cpu_8cpp.html#a9d914bb02aed97803fcc9237f00403fa',1,'split_embedding_backward_codegen_sgd_cpu(Tensor grad_output, Tensor host_weights, Tensor weights_placements, Tensor weights_offsets, Tensor D_offsets, int64_t max_D, Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, bool stochastic_rounding, double learning_rate=0, int64_t output_dtype=static_cast&lt; int64_t &gt;(SparseType::FP32)):&#160;gen_embedding_backward_sgd_split_cpu.cpp']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fcuda_53',['split_embedding_backward_codegen_sgd_unweighted_exact_cuda',['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#ad2d75e84d796d6d8fae77c19e7a8af3b',1,'split_embedding_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a8f7618b0f318fed552700a9303e0c500',1,'split_embedding_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fvbe_5fcuda_54',['split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda',['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#a216acb29a8d546146f5593b5abd7eaa1',1,'split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#aa75d2899ee39c0d5f71e426d1cc7d57c',1,'split_embedding_backward_codegen_sgd_unweighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fweighted_5fexact_5fcuda_55',['split_embedding_backward_codegen_sgd_weighted_exact_cuda',['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#a16ec895b54d5b04f3fdfa67930c1c02a',1,'split_embedding_backward_codegen_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a2934aefc05b7ad4bc6e07074f0a2ee1e',1,'split_embedding_backward_codegen_sgd_weighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu']]],
+  ['split_5fembedding_5fbackward_5fcodegen_5fsgd_5fweighted_5fexact_5fvbe_5fcuda_56',['split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda',['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#a9ee8617b61b6a4be1391fe53321bf927',1,'split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a67f194387a7e81de22d969964f1cc379',1,'split_embedding_backward_codegen_sgd_weighted_exact_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const Tensor &amp;B_offsets, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fcpu_57',['split_embedding_codegen_forward_cpu',['../embedding__forward__split__cpu_8cpp.html#aaf201bc6f5c8deb12999a3eff03cf7bb',1,'split_embedding_codegen_forward_cpu(Tensor weights, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor hash_size_cumsum, Tensor indices, Tensor offsets, int64_t pooling_mode, Tensor indice_weights, int64_t output_dtype):&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__cpu_8h.html#a01e2ccf0c687aa129f511c048dd878a2',1,'split_embedding_codegen_forward_cpu(at::Tensor weights, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor hash_size_cumsum, at::Tensor indices, at::Tensor offsets, int64_t pooling_mode, at::Tensor indice_weights, int64_t output_dtype=0):&#160;embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fcpu_5fmeta_58',['split_embedding_codegen_forward_cpu_meta',['../embedding__forward__split__cpu_8cpp.html#a0641f4b915d503586cb2d251029169e4',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_59',['split_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc6855d69e1817ffa8c28948673c7b0b',1,'split_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fmeta_60',['split_embedding_codegen_forward_unweighted_meta',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a2b7fe88621ffc9b8dc0b55efafb6cb83',1,'gen_embedding_forward_split_unweighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fvbe_5fcuda_61',['split_embedding_codegen_forward_unweighted_vbe_cuda',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a028ac1d276dc02b3db5e9195eea165f3',1,'split_embedding_codegen_forward_unweighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5funweighted_5fvbe_5fmeta_62',['split_embedding_codegen_forward_unweighted_vbe_meta',['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#ac45ac774af2f2cdc3ef15fccacbc9866',1,'gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_63',['split_embedding_codegen_forward_weighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a25265c0efdc4f020ea5b8d5e730dfb31',1,'split_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fmeta_64',['split_embedding_codegen_forward_weighted_meta',['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#a3f1b063bf337baa7c85cd891f50dcb17',1,'gen_embedding_forward_split_weighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fvbe_5fcuda_65',['split_embedding_codegen_forward_weighted_vbe_cuda',['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a0b7f13ed95640b7a8e42d3f0ff3f2b46',1,'split_embedding_codegen_forward_weighted_vbe_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t vbe_output_size, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool is_experimental):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fforward_5fweighted_5fvbe_5fmeta_66',['split_embedding_codegen_forward_weighted_vbe_meta',['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#aafe550801c2d2c26cf43ccef3a6ac0e9',1,'gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcpu_67',['split_embedding_codegen_grad_indice_weights_cpu',['../embedding__forward__split__cpu_8cpp.html#a03b54fa4944d00f3984442a980742701',1,'split_embedding_codegen_grad_indice_weights_cpu(Tensor grad_output, Tensor weights, Tensor weights_offsets, Tensor D_offsets, Tensor indices, Tensor offsets, Tensor feature_requires_grad):&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__cpu_8h.html#a371a7887c9af52b22bdc10e84d5c2ba6',1,'split_embedding_codegen_grad_indice_weights_cpu(at::Tensor grad_output, at::Tensor weights, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor indices, at::Tensor offsets, at::Tensor feature_requires_grad):&#160;embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcuda_68',['split_embedding_codegen_grad_indice_weights_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a1fb867d681110d956ddaf10f110156a1',1,'split_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fvbe_5fcuda_69',['split_embedding_codegen_grad_indice_weights_vbe_cuda',['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#ae8a987f07ba5142ffd7a0733824925a2',1,'split_embedding_codegen_grad_indice_weights_vbe_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const Tensor &amp;feature_requires_grad, const Tensor &amp;vbe_row_output_offsets, const Tensor &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask_int64):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fadagrad_5ffunction_70',['split_embedding_codegen_lookup_adagrad_function',['../group__embedding-cuda.html#gaa0988eef90f8662e8886912ed3784c1d',1,'gen_embedding_backward_split_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fadam_5ffunction_71',['split_embedding_codegen_lookup_adam_function',['../group__embedding-cuda.html#ga639ddbb31e9d565bfcfa4766b14c9ef6',1,'gen_embedding_backward_split_adam.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5ffunction_72',['split_embedding_codegen_lookup_approx_rowwise_adagrad_function',['../group__embedding-cuda.html#gac847393d811e7b22ace39ff91eb91e27',1,'gen_embedding_backward_split_approx_rowwise_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5fwith_5fcounter_5ffunction_73',['split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function',['../group__embedding-cuda.html#gabf7587752fb66934350cec59cd7adda9',1,'gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ffunction_74',['split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function',['../group__embedding-cuda.html#ga0a7191adb6807417bfaab85ccb6fac50',1,'gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fapprox_5fsgd_5ffunction_75',['split_embedding_codegen_lookup_approx_sgd_function',['../group__embedding-cuda.html#gabcff81381942478b57805e5deb7725fb',1,'gen_embedding_backward_split_approx_sgd.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fdense_5ffunction_76',['split_embedding_codegen_lookup_dense_function',['../embedding__backward__dense__host_8cpp.html#a04b7d97e6fd0bbb6e9877db0c1b7e506',1,'embedding_backward_dense_host.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5flamb_5ffunction_77',['split_embedding_codegen_lookup_lamb_function',['../group__embedding-cuda.html#ga1c377dd2500d38974bbfe0e69243e084',1,'gen_embedding_backward_split_lamb.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5flars_5fsgd_5ffunction_78',['split_embedding_codegen_lookup_lars_sgd_function',['../group__embedding-cuda.html#ga5c0d733a2e781ea4c9fc5ab3a2d6ccf3',1,'gen_embedding_backward_split_lars_sgd.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fnone_5ffunction_79',['split_embedding_codegen_lookup_none_function',['../group__embedding-cuda.html#ga855a30b389de5a61097f44cff795b6c3',1,'gen_embedding_backward_split_none.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fpartial_5frowwise_5fadam_5ffunction_80',['split_embedding_codegen_lookup_partial_rowwise_adam_function',['../group__embedding-cuda.html#ga06feb6c425fba7c460dc0da550d4e4e6',1,'gen_embedding_backward_split_partial_rowwise_adam.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fpartial_5frowwise_5flamb_5ffunction_81',['split_embedding_codegen_lookup_partial_rowwise_lamb_function',['../group__embedding-cuda.html#ga37b9129c928c9cb39459198f36f11c8d',1,'gen_embedding_backward_split_partial_rowwise_lamb.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5ffunction_82',['split_embedding_codegen_lookup_rowwise_adagrad_function',['../group__embedding-cuda.html#gacc3d997b675b747985dd37193cac4edd',1,'gen_embedding_backward_split_rowwise_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5fwith_5fcounter_5ffunction_83',['split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function',['../group__embedding-cuda.html#ga917cf0c2c4487425408808529ed05e68',1,'gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ffunction_84',['split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function',['../group__embedding-cuda.html#ga2e19021f546871ef6f1e57fca7cf5e13',1,'gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5frowwise_5fweighted_5fadagrad_5ffunction_85',['split_embedding_codegen_lookup_rowwise_weighted_adagrad_function',['../group__embedding-cuda.html#ga54a40e0e64a528731d45bca998727a1c',1,'gen_embedding_backward_split_rowwise_weighted_adagrad.cpp']]],
+  ['split_5fembedding_5fcodegen_5flookup_5fsgd_5ffunction_86',['split_embedding_codegen_lookup_sgd_function',['../group__embedding-cuda.html#ga66c2eb0df8e5dab40f0d862ebe43bd34',1,'gen_embedding_backward_split_sgd.cpp']]],
+  ['split_5fembedding_5fforward_5fcpu_5fkernel_87',['split_embedding_forward_cpu_kernel',['../embedding__forward__split__cpu_8cpp.html#af360a949beb9bba72466614e220da13d',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fgrad_5findice_5fweights_5fcpu_5fkernel_88',['split_embedding_grad_indice_weights_cpu_kernel',['../embedding__forward__split__cpu_8cpp.html#a1156d3aee8ccb8a6676b22f78fe0829c',1,'embedding_forward_split_cpu.cpp']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fadagrad_5funweighted_5fexact_5fcuda_89',['split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#a635c3123249dcf767e8d80923e11a7b1',1,'split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#ad491e078738cfd46a4d2377948b977fc',1,'split_embedding_nobag_backward_codegen_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fadam_5funweighted_5fexact_5fcuda_90',['split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda',['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#a6392bb8bf8131572a96cb5bf5a363152',1,'split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a6a9de0e9036f30dbd7d7e4442ae7e5fe',1,'split_embedding_nobag_backward_codegen_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fapprox_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_91',['split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#a8d755844b3dc430390b0db02833650a7',1,'split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a701f363d76409a2aa4df028f12ba0300',1,'split_embedding_nobag_backward_codegen_approx_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fdense_5funweighted_5fexact_5fcuda_92',['split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda',['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#a11ce1782edb9d58fffb5fe2581172d70',1,'split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t unused_, const int64_t max_segment_length_per_warp, double unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a7911ad2a461036b977d8d9f9fafb391a',1,'split_embedding_nobag_backward_codegen_dense_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const double unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5flamb_5funweighted_5fexact_5fcuda_93',['split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda',['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#ad6463435db98705077041803b394dcc3',1,'split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a557b019964c8d292ca9923927e0d974a',1,'split_embedding_nobag_backward_codegen_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5flars_5fsgd_5funweighted_5fexact_5fcuda_94',['split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda',['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#a0e0807f32e264e5a83586907ea3f6749',1,'split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate, double eta, double momentum, double weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a80df1bf7d746582f689d6bc4652f7266',1,'split_embedding_nobag_backward_codegen_lars_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double learning_rate=0, double eta=0, double momentum=0, double weight_decay=0):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fnone_5funweighted_5fexact_5fcuda_95',['split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda',['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af181f8da92e59fb5da465d0931859e77',1,'split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a1540203f5279dd87016b397fe33fb041',1,'split_embedding_nobag_backward_codegen_none_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, int64_t total_hash_size=0, int64_t total_unique_indices=0):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fpartial_5frowwise_5fadam_5funweighted_5fexact_5fcuda_96',['split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#a96e4c395674727814da03c2e1654487b',1,'split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#aed21b16681b11ddd3303195bc4e278ec',1,'split_embedding_nobag_backward_codegen_partial_rowwise_adam_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fpartial_5frowwise_5flamb_5funweighted_5fexact_5fcuda_97',['split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda',['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#a41c428effc52b315649ebd4bda728619',1,'split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate, double eps, double beta1, double beta2, double weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad14c41705ba6da0dc89b8802945b9a3a',1,'split_embedding_nobag_backward_codegen_partial_rowwise_lamb_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor momentum2_dev, Tensor momentum2_uvm, Tensor momentum2_placements, Tensor momentum2_offsets, double learning_rate=0, double eps=0, double beta1=0, double beta2=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5funweighted_5fexact_5fcuda_98',['split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#a05fd1c9f2aea152f9cbe2def957c66fb',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode, double max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a4bdf992307f845985594c371275668a8',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fcounter_5funweighted_5fexact_5fcuda_99',['split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#a0377d50ef90391567b4819a19bffb34c',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps, double learning_rate, double weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, double adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, double max_counter, double tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, double weight_norm_coefficient, double lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a7a94588a2cce7c8cad5f1654d5724ea3',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_counter_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, Tensor prev_iter_dev, Tensor prev_iter_uvm, Tensor prev_iter_placements, Tensor prev_iter_offsets, Tensor row_counter_dev, Tensor row_counter_uvm, Tensor row_counter_placements, Tensor row_counter_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t iter=0, int64_t counter_halflife=-1, int64_t adjustment_iter=-1, double adjustment_ub=1.0, int64_t learning_rate_mode=-1, int64_t weight_decay_mode=1, int64_t grad_sum_decay=-1, double max_counter=0, double tail_id_threshold=0.0, int64_t is_tail_id_thresh_ratio=0, int64_t regularization_mode=0, double weight_norm_coefficient=0.0, double lower_bound=0.0):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5funweighted_5fexact_5fcuda_100',['split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af25017968213662e5c8c0ab9f5fa7e9a',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a31dd9b41f6ea038416e54092a7fcb594',1,'split_embedding_nobag_backward_codegen_rowwise_adagrad_with_weight_decay_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5frowwise_5fweighted_5fadagrad_5funweighted_5fexact_5fcuda_101',['split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda',['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#a42435ea3b63f42213a2c24d4aadc84f6',1,'split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps, double learning_rate, double weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#aaf57ee3cb4514d7ccec1c0f5bd653ed3',1,'split_embedding_nobag_backward_codegen_rowwise_weighted_adagrad_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0, int64_t iter=0):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fbackward_5fcodegen_5fsgd_5funweighted_5fexact_5fcuda_102',['split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda',['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#a2260d3e46945437faae7a44fe015bf7c',1,'split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t unused_, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#ad92e69305915e46befca51e7288b428b',1,'split_embedding_nobag_backward_codegen_sgd_unweighted_exact_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t BT_block_size, const int64_t max_segment_length_per_warp, const bool stochastic_rounding, const int64_t info_B_num_bits, const int64_t info_B_mask_int64, const bool use_uniq_cache_locations, const bool use_homogeneous_placements, double learning_rate=0):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_103',['split_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__backward__split__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__none_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__backward__split__sgd_8cpp.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0d1a75d11b80a3b6735993fc34eb067e',1,'split_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;uvm_weights, const Tensor &amp;lxu_cache_weights, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;lxu_cache_locations, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu']]],
+  ['split_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fmeta_104',['split_embedding_nobag_codegen_forward_unweighted_meta',['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#a580b1b950402848a3c71d7092a69ceb7',1,'gen_embedding_forward_split_unweighted_codegen_meta.cpp']]],
+  ['split_5fembedding_5frowwise_5fadagrad_5fupdate_105',['split_embedding_rowwise_adagrad_update',['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#a21a7b48ff9760f1aa13e260de4b7d2a9',1,'split_embedding_rowwise_adagrad_update(Tensor &amp;dev_weights, Tensor &amp;uvm_weights, Tensor &amp;lxu_cache_weights, const Tensor &amp;grad_dev_weights, const Tensor &amp;grad_dev_indices, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t max_D, const bool stochastic_rounding, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#ab369ffc9f9e69eca82b24131247ecfcf',1,'split_embedding_rowwise_adagrad_update(Tensor &amp;dev_weights, Tensor &amp;uvm_weights, Tensor &amp;lxu_cache_weights, const Tensor &amp;grad_dev_weights, const Tensor &amp;grad_dev_indices, const Tensor &amp;weights_placements, const Tensor &amp;weights_offsets, const int64_t max_D, const bool stochastic_rounding, Tensor momentum1_dev, Tensor momentum1_uvm, Tensor momentum1_placements, Tensor momentum1_offsets, double eps=0, double learning_rate=0, double weight_decay=0.0, int64_t weight_decay_mode=0, double max_norm=0.0):&#160;gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu']]],
+  ['split_5flamb_5ftable_5fupdate_5fkernel_106',['split_lamb_table_update_kernel',['../gen__embedding__optimizer__lamb__split__device__kernel_8cuh.html#a2952f72a1e3f88f38246d2954dbee2b1',1,'gen_embedding_optimizer_lamb_split_device_kernel.cuh']]],
+  ['split_5flars_5fsgd_5ftable_5fupdate_5fkernel_107',['split_lars_sgd_table_update_kernel',['../gen__embedding__optimizer__lars__sgd__split__device__kernel_8cuh.html#af488b727a53946064f329ad042bbf73a',1,'gen_embedding_optimizer_lars_sgd_split_device_kernel.cuh']]],
+  ['split_5fnone_5ftable_5fupdate_5fkernel_108',['split_none_table_update_kernel',['../gen__embedding__optimizer__none__split__device__kernel_8cuh.html#a2cb53295ff111df7a98fbc7573469c61',1,'gen_embedding_optimizer_none_split_device_kernel.cuh']]],
+  ['split_5fpartial_5frowwise_5fadam_5ftable_5fupdate_5fkernel_109',['split_partial_rowwise_adam_table_update_kernel',['../gen__embedding__optimizer__partial__rowwise__adam__split__device__kernel_8cuh.html#a278aedfb9f50b7f5486dbc97e87cab8e',1,'gen_embedding_optimizer_partial_rowwise_adam_split_device_kernel.cuh']]],
+  ['split_5fpartial_5frowwise_5flamb_5ftable_5fupdate_5fkernel_110',['split_partial_rowwise_lamb_table_update_kernel',['../gen__embedding__optimizer__partial__rowwise__lamb__split__device__kernel_8cuh.html#a950ea306504584d6cc2050caf007295c',1,'gen_embedding_optimizer_partial_rowwise_lamb_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5ftable_5fupdate_5fkernel_111',['split_rowwise_adagrad_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__split__device__kernel_8cuh.html#aab5a925ed0316c38c00fcce3b1adc50a',1,'gen_embedding_optimizer_rowwise_adagrad_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5fwith_5fcounter_5ftable_5fupdate_5fkernel_112',['split_rowwise_adagrad_with_counter_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__with__counter__split__device__kernel_8cuh.html#aa7708111891a0d2eeeda7881715427bb',1,'gen_embedding_optimizer_rowwise_adagrad_with_counter_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fadagrad_5fwith_5fweight_5fdecay_5ftable_5fupdate_5fkernel_113',['split_rowwise_adagrad_with_weight_decay_table_update_kernel',['../gen__embedding__optimizer__rowwise__adagrad__with__weight__decay__split__device__kernel_8cuh.html#ae265a93446a3c4665e857bc8b2f7d8d7',1,'gen_embedding_optimizer_rowwise_adagrad_with_weight_decay_split_device_kernel.cuh']]],
+  ['split_5frowwise_5fweighted_5fadagrad_5ftable_5fupdate_5fkernel_114',['split_rowwise_weighted_adagrad_table_update_kernel',['../gen__embedding__optimizer__rowwise__weighted__adagrad__split__device__kernel_8cuh.html#a54b1af3a7b8db5fce48d934e47656c50',1,'gen_embedding_optimizer_rowwise_weighted_adagrad_split_device_kernel.cuh']]],
+  ['split_5fsgd_5ftable_5fupdate_5fkernel_115',['split_sgd_table_update_kernel',['../gen__embedding__optimizer__sgd__split__device__kernel_8cuh.html#ab768e225fdd76b64ab5c9114ed3cc7cc',1,'gen_embedding_optimizer_sgd_split_device_kernel.cuh']]],
+  ['splitmix64_5fstateless_116',['splitmix64_stateless',['../namespacefbgemm__gpu.html#aa5ada0472a8306dea17df0d7d1d42abc',1,'fbgemm_gpu']]],
+  ['ssd_5fcache_5fpopulate_5factions_5fcuda_117',['ssd_cache_populate_actions_cuda',['../ssd__split__embeddings__cache__cuda_8cu.html#a872136033719ff00d6b05e94e4b1cbab',1,'ssd_cache_populate_actions_cuda(Tensor linear_indices, int64_t total_hash_size, Tensor lxu_cache_state, int64_t time_stamp, int64_t prefetch_dist, Tensor lru_state):&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__table__batched__embeddings_8cpp.html#a872136033719ff00d6b05e94e4b1cbab',1,'ssd_cache_populate_actions_cuda(Tensor linear_indices, int64_t total_hash_size, Tensor lxu_cache_state, int64_t time_stamp, int64_t prefetch_dist, Tensor lru_state):&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_5fcpu_118',['stacked_jagged_1d_to_dense_cpu',['../namespacefbgemm__gpu.html#a6ac9f6d81bff1b8572a380dbe1af00fb',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f1d_5fto_5fdense_5fgpu_119',['stacked_jagged_1d_to_dense_gpu',['../namespacefbgemm__gpu.html#adf7f39b1a3dd7c2797fd11e740d6269f',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fbackward_5fcuda_120',['stacked_jagged_2d_to_dense_backward_cuda',['../namespacefbgemm__gpu.html#a442efbf57b46780a07ac4759ac1866ee',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fcpu_121',['stacked_jagged_2d_to_dense_cpu',['../namespacefbgemm__gpu.html#ab45e5e415a8929cbd0021eae37e1d881',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fforward_5fcuda_122',['stacked_jagged_2d_to_dense_forward_cuda',['../namespacefbgemm__gpu.html#a5de1d5c177df840f2fa7ab0cdda2aa02',1,'fbgemm_gpu']]],
+  ['stacked_5fjagged_5f2d_5fto_5fdense_5fgpu_123',['stacked_jagged_2d_to_dense_gpu',['../namespacefbgemm__gpu.html#aaac575e676d094aba1367e9eaf3489bc',1,'fbgemm_gpu']]],
+  ['stochastic_5frounding_5finit_124',['stochastic_rounding_init',['../namespacefbgemm__gpu.html#afe523b46c92c9009410f173e4ac434db',1,'fbgemm_gpu']]],
+  ['stochastic_5frounding_5frand4_125',['stochastic_rounding_rand4',['../namespacefbgemm__gpu.html#af0b19e6751891f43372768335cc3c468',1,'fbgemm_gpu']]],
+  ['stochastic_5frounding_5fvector_126',['stochastic_rounding_vector',['../namespacefbgemm__gpu.html#aec7be9515265c4db67d205f8a3a39822',1,'fbgemm_gpu::stochastic_rounding_vector(dst_t *output, const Vec4T&lt; src_t &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a06c37bb32cb18b8846cf689db8ed94fb',1,'fbgemm_gpu::stochastic_rounding_vector(at::Half *output, const Vec4T&lt; at::Half &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a7d41dbbfc3106c8fd5ff37cefbffbc38',1,'fbgemm_gpu::stochastic_rounding_vector(at::Half *output, const Vec4T&lt; float &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2)'],['../namespacefbgemm__gpu.html#a3313b5c0af7bd07d6e47253a24a27ce7',1,'fbgemm_gpu::stochastic_rounding_vector(uint8_t *output, const Vec4T&lt; float &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2 qparams)'],['../namespacefbgemm__gpu.html#a44ed26caaddd852d96ee453ea6cc2e07',1,'fbgemm_gpu::stochastic_rounding_vector(uint8_t *output, const Vec4T&lt; at::Half &gt; &amp;value, StochasticRoundingRNGState &amp;state, const float2 qparams)']]],
+  ['store_127',['store',['../structfbgemm__gpu_1_1_half4.html#a89967f417dba84846fa95a0f010d8922',1,'fbgemm_gpu::Half4::store()'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ab31e8852ca6760cf83d6356c8c448596',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(float4 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; float &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a85854690aa7af9f8006cf54d577d8e77',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::store(uint8_t *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a42f2f5c890748268ece0df580bbafa44',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(double *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a156eebe566e80706636626c60d2d13b0',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(float *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ac1717b1a00b76b3d368982629c5e8287',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(at::Half *p) const'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8513259b78c1bcc3e849beea82b95edd',1,'fbgemm_gpu::Vec4T&lt; double &gt;::store(at::BFloat16 *p) const'],['../structfbgemm__gpu_1_1_weight_row.html#a2118cba7a45acc1a3d8ea5781badbbe9',1,'fbgemm_gpu::WeightRow::store()'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a8191536a88223b7249cae8a8cfa97979',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab9651b6b0e85a41131aa086c367d68bd',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a0624585ab8592b64edef7a6730938cb9',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a5ba7b1dad5adec8ae5dc9e4adfe58c38',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab208ce429674113143ee02d6b9e8a9be',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac87524a86f8aa165742c6b793f8fe6aa',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a26ce31b610926ff405b67dc540ff3d95',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a392a5b352be9af9ba86e0cd396e6316a',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=1)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a4699624d6b086fa52d88ce1960dc7297',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a1f0743afcc39c1afeeee6cd9bcdddc35',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a2c56bff3020a6b803a8310a13b61cfbe',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#ac4e67ed3ba860166333a7805b101490d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a0c562343c84b60da0e5f11ee16e593f2',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a68c214376e86167cbe59755a1caf99a5',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a9e2e827bb7e7c608f3acd3953a39e720',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a32f2acc26afe1a9cf7d5152567bbd15d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=2)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a75cd31fa56a77c83611b64ddd370a562',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(float *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a81504bf4294b938a3efc8d00acda3b5f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::Half *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad15c2605b8d982986100c89caa7c0401',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a786f9130a8df81af5fc3b0706a1a6545',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#afbc2050eefc2350fd0f84db8dd568d14',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a6740fe48ec591c6058b8c5019ca0b599',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a75cd31fa56a77c83611b64ddd370a562',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a81504bf4294b938a3efc8d00acda3b5f',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#ad15c2605b8d982986100c89caa7c0401',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a786f9130a8df81af5fc3b0706a1a6545',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#afbc2050eefc2350fd0f84db8dd568d14',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a6740fe48ec591c6058b8c5019ca0b599',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#acf9a6b5f9ac186a75bd50800993e7241',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa231a6e5c1ad91305125e2ba8c6cf773',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa2d60424caff50f6d80adfcd1ab5ba3f',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a5881b8e1b9ca2c81640bad8e6d0a455a',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa7c2038d0448a12c5edd87eb31f8b828',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#abfaf6f8618474ccb25d58d723792421d',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aad5d604b72b0f656dbeb5e313ebf63af',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a6dfa84a3eb11e20e68d8d3b401c7d2cf',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=8)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a82b07f279fccc086af2208ca7d6d1a3a',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(float *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f25b384b68cdb93ddd010a86f661460',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::Half *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aa9b6e7a0e81a3a3d049e7c632fec2ad7',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, const int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a0d5c2181816bdbb6e5e4998b3fbba721',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a23eb49aef842e89c0f4403d45df27af9',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a483f290add1c81ba850fda8c574f68bb',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(float *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a9b3adeaa52d595467e06b90520c9708a',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::Half *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aba368627faa071e57a548a336c7bee6b',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::store(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=16)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d',1,'fbgemm_gpu::Vec4AccT::store(float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6',1,'fbgemm_gpu::Vec4AccT::store(float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206',1,'fbgemm_gpu::Vec4AccT::store(uint8_t *ptr)']]],
+  ['store_5f_128',['store_',['../structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196',1,'fbgemm_gpu::Vec4AccT::store_(const float4 *src, float4 *dst)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6',1,'fbgemm_gpu::Vec4AccT::store_(const float4 *src, float2 *dst)']]],
+  ['store_5fqparams_129',['store_qparams',['../structfbgemm__gpu_1_1_weight_row.html#a7e20dc1480b5220df335895b7ac6bdd0',1,'fbgemm_gpu::WeightRow']]],
+  ['store_5fqparams_5fto_5frow_130',['store_qparams_to_row',['../namespacefbgemm__gpu.html#a8afc4c2510a6db3d420fc1025d3ac30b',1,'fbgemm_gpu::store_qparams_to_row(emb_t *ptr, float2 qparams)'],['../namespacefbgemm__gpu.html#af4ec15f5d6826c016c46b5d7cae62d72',1,'fbgemm_gpu::store_qparams_to_row(uint8_t *ptr, float2 qparams)']]],
+  ['stride_131',['stride',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694',1,'fbgemm_gpu::TensorAccessorBase::stride()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a396d81b04ec72f4281d15a02c7840694',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::stride()']]],
+  ['strides_132',['strides',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#af446bd0965fd0586067d176a1630a6c1',1,'fbgemm_gpu::TensorAccessorBase']]],
+  ['sum_133',['sum',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2b4995ca44cb8977ca258395e80a8687',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::sum()']]],
+  ['sum_5freduce_5fto_5fone_5fdevice_134',['sum_reduce_to_one_device',['../namespacefbgemm__gpu.html#aa7f73354e0c76fbc0584c3250dadc98e',1,'fbgemm_gpu']]],
+  ['syncwarp_135',['syncwarp',['../namespacefbgemm__gpu.html#ab776b7b9076d17238d502b2746135ace',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_14.js b/search/functions_14.js
new file mode 100644
index 000000000..df52d41a9
--- /dev/null
+++ b/search/functions_14.js
@@ -0,0 +1,37 @@
+var searchData=
+[
+  ['tbe_5finput_5fcombine_5fcpu_0',['tbe_input_combine_cpu',['../group__input-combine.html#ga4f8f3f8b825c9d7639c1e45e8dc8b689',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fcpu_1',['tbe_input_combine_with_length_cpu',['../namespacefbgemm__gpu.html#a56da764643d07d366219d69333e6f9de',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fcuda_2',['tbe_input_combine_with_length_cuda',['../namespacefbgemm__gpu.html#ae818a54243bd2ea4c0841088f07ff327',1,'fbgemm_gpu']]],
+  ['tbe_5finput_5fcombine_5fwith_5flength_5fgpu_3',['tbe_input_combine_with_length_gpu',['../namespacefbgemm__gpu.html#af7db32b23d955e760c7dfb4b29a13ca1',1,'fbgemm_gpu']]],
+  ['tensor_5fon_5fsame_5fgpu_5fif_5fnot_5foptional_5fcheck_4',['tensor_on_same_gpu_if_not_optional_check',['../sparse__ops__utils_8h.html#a5a8411338d3eef3620c7f5be3803c7cd',1,'sparse_ops_utils.h']]],
+  ['tensoraccessor_5',['TensorAccessor',['../classfbgemm__gpu_1_1_tensor_accessor.html#a6b681d8fc7f13b4b8d31426ec10a0f11',1,'fbgemm_gpu::TensorAccessor::TensorAccessor()'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a55169dff4cc835156c5ccd43240b4c8c',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::TensorAccessor()']]],
+  ['tensoraccessorbase_6',['TensorAccessorBase',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#ac139dc2b8e88aec4b189a6c41bc135af',1,'fbgemm_gpu::TensorAccessorBase']]],
+  ['test_7',['TEST',['../embedding__inplace__update__test_8cpp.html#a8eb96d7f557ba896e48fef81f259d7a5',1,'TEST(EmbeddingInplaceUpdateTest, random_update):&#160;embedding_inplace_update_test.cpp'],['../cpu__kernel__test_8cpp.html#aa2c7091971cf4fd4bcbb3215ebe612cf',1,'TEST(cpu_kernel_test, csr2csc_test):&#160;cpu_kernel_test.cpp'],['../sparse__ops__utils__test_8cpp.html#a9011669ae997bae59aa8f141bd794f11',1,'TEST(sparse_ops_utils_test, undefined_tensors_do_not_trigger):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#a2d4ac7a4fb22c0789d8510d17f3878db',1,'TEST(sparse_ops_utils_test, cpu_tensors_fail):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#adc3b9330a7cac1cf2e07268fe7a6bd17',1,'TEST(sparse_ops_utils_test, gpu_tensors_pass):&#160;sparse_ops_utils_test.cpp'],['../sparse__ops__utils__test_8cpp.html#ae888046a03bb3fe0f87d23c4915f6994',1,'TEST(sparse_ops_utils_test, optional_tensor_passes):&#160;sparse_ops_utils_test.cpp'],['../tensor__assert__test_8cpp.html#af3ce575ab5810b31aae3455d53faacee',1,'TEST(tensor_assert_test, gpu_asserts):&#160;tensor_assert_test.cpp'],['../uvm__cache__miss__emulate__test_8cpp.html#aab721325808448b876b97faee4b751b9',1,'TEST(uvm_cache_miss_emulate_test, no_cache_miss):&#160;uvm_cache_miss_emulate_test.cpp'],['../uvm__cache__miss__emulate__test_8cpp.html#acdba631ddc8a5dc4e4ee2c02959d3e14',1,'TEST(uvm_cache_miss_emulate_test, enforced_cache_miss):&#160;uvm_cache_miss_emulate_test.cpp']]],
+  ['test_5fembedding_5finplace_5fupdate_8',['test_embedding_inplace_update',['../embedding__inplace__update__test_8cpp.html#aac82e2990c8f2f7d3957f862975181a0',1,'embedding_inplace_update_test.cpp']]],
+  ['thrust_5ffind_5fqparams_9',['thrust_find_qparams',['../namespacefbgemm__gpu.html#a6c54f589eee05a58cebd4cf7cf8b1086',1,'fbgemm_gpu::thrust_find_qparams(scalar_t *input_row, int D)'],['../namespacefbgemm__gpu.html#a8145ebe65a5242bd7a3a15de0d69a70b',1,'fbgemm_gpu::thrust_find_qparams(fbgemm_gpu::Vec4T&lt; scalar_t &gt; *input_row, int D)']]],
+  ['to_5fbfloat16_10',['to_bfloat16',['../namespacefbgemm__gpu.html#a9d1e20705b5c1c16dd554c81b3766b93',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f16_11',['to_bfloat16_16',['../namespacefbgemm__gpu.html#a3f6b99cce95aa3d297e4b824e577d62d',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f2_12',['to_bfloat16_2',['../namespacefbgemm__gpu.html#a2b8a7fb1619f338df717ef075fe513e4',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f4_13',['to_bfloat16_4',['../namespacefbgemm__gpu.html#a7d0d7114d05a683328a782804ef2bef9',1,'fbgemm_gpu']]],
+  ['to_5fbfloat16_5f8_14',['to_bfloat16_8',['../namespacefbgemm__gpu.html#a74f150a063fed3144f6d99cde2d46069',1,'fbgemm_gpu']]],
+  ['to_5fhalf_15',['to_half',['../namespacefbgemm__gpu.html#a3e13c4ba1e371f3bcabf7f6f74ac103e',1,'fbgemm_gpu']]],
+  ['to_5fhalf16_16',['to_half16',['../namespacefbgemm__gpu.html#a776872b9c8f667b7d05aea83e7287d5d',1,'fbgemm_gpu']]],
+  ['to_5fhalf2_17',['to_half2',['../namespacefbgemm__gpu.html#aaed7807ac8eef0fb786324d5935c4aca',1,'fbgemm_gpu']]],
+  ['to_5fhalf4_18',['to_half4',['../namespacefbgemm__gpu.html#aee1f23de5e5847146cd821595d1978ae',1,'fbgemm_gpu']]],
+  ['to_5fhalf8_19',['to_half8',['../namespacefbgemm__gpu.html#a40088f5e88d0985b0c9b08808c40e1dd',1,'fbgemm_gpu']]],
+  ['torch_5flibrary_5ffragment_20',['TORCH_LIBRARY_FRAGMENT',['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__none_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__none_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_dense_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../batch__index__select__dim0__cpu__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__cpu__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;batch_index_select_dim0_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;batch_index_select_dim0_host.cpp'],['../embedding__backward__dense__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_backward_dense_host.cpp'],['../embedding__backward__dense__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_backward_dense_host.cpp'],['../embedding__bounds__check__host_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#ad1913bdf24279dfcc3932843af149fd0',1,'TORCH_LIBRARY_FRAGMENT(fb, m):&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__forward__quantized__host_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_forward_quantized_host.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_forward_quantized_host_cpu.cpp'],['../embedding__optimizer__split__host__template_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_optimizer_split_host_template.cpp'],['../embedding__inplace__update__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_inplace_update_cpu.cpp'],['../embedding__inplace__update__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;embedding_inplace_update_gpu.cpp'],['../input__combine__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;input_combine_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;jagged_tensor_ops_cpu.cpp'],['../layout__transform__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;layout_transform_ops_cpu.cpp'],['../namespacefbgemm__gpu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'fbgemm_gpu::TORCH_LIBRARY_FRAGMENT()'],['../merge__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;merge_pooled_embedding_ops_cpu.cpp'],['../merge__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;merge_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__split__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_split_cpu.cpp'],['../permute__pooled__embedding__ops__split__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;permute_pooled_embedding_ops_split_gpu.cpp'],['../quantize__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;quantize_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_ops_gpu.cpp'],['../sparse__zipf_8cu.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;sparse_zipf.cu'],['../split__embeddings__utils_8cpp.html#af53d2b0e9d8aeadd7d5094bd03ea25cc',1,'TORCH_LIBRARY_FRAGMENT(fbgemm, m):&#160;split_embeddings_utils.cpp']]],
+  ['torch_5flibrary_5fimpl_21',['TORCH_LIBRARY_IMPL',['../namespacefbgemm__gpu.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'fbgemm_gpu::TORCH_LIBRARY_IMPL()'],['../jagged__tensor__ops__autograd_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65',1,'TORCH_LIBRARY_IMPL(fbgemm, Autograd, m):&#160;jagged_tensor_ops_autograd.cpp'],['../jagged__tensor__ops__autograd_8cpp.html#a5eca359a14102dd9fcab1f8e80594472',1,'TORCH_LIBRARY_IMPL(fbgemm, CompositeImplicitAutograd, m):&#160;jagged_tensor_ops_autograd.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__cpu_8cpp.html#aa138561d0eb99d73b2bf9586b84e7c46',1,'TORCH_LIBRARY_IMPL(fbgemm, CompositeExplicitAutograd, m):&#160;jagged_tensor_ops_cpu.cpp'],['../jagged__tensor__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;jagged_tensor_ops_meta.cpp'],['../layout__transform__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;layout_transform_ops_cpu.cpp'],['../layout__transform__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'TORCH_LIBRARY_IMPL(fbgemm, CUDA, m):&#160;layout_transform_ops_gpu.cpp'],['../quantize__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;quantize_ops_cpu.cpp'],['../quantize__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;quantize_ops_meta.cpp'],['../sparse__ops__cpu_8cpp.html#a26b96ceaa00c9be7dbba99ca0b772a58',1,'TORCH_LIBRARY_IMPL(fbgemm, CPU, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#a89761ba0ed893bf88bdfdd1f6d15bc65',1,'TORCH_LIBRARY_IMPL(fbgemm, Autograd, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#af0fdef89a7a61f1f510ed4bb5f6d5398',1,'TORCH_LIBRARY_IMPL(fbgemm, AutogradCPU, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__cpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#a257a9d9e0a71b3a1299af6ef9c6c3a78',1,'TORCH_LIBRARY_IMPL(fbgemm, CUDA, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__gpu_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__gpu_8cpp.html#a8fd406590cd83f4dec4a63c7c1b9ce78',1,'TORCH_LIBRARY_IMPL(fbgemm, AutogradCUDA, m):&#160;sparse_ops_gpu.cpp'],['../sparse__ops__meta_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;sparse_ops_meta.cpp'],['../split__embeddings__utils_8cpp.html#a5a1490b57e6f9b7f7f7b12c0359a2f91',1,'TORCH_LIBRARY_IMPL(fbgemm, Meta, m):&#160;split_embeddings_utils.cpp']]],
+  ['torch_5ftensor_5fdevice_5fname_22',['torch_tensor_device_name',['../sparse__ops__utils_8h.html#a535403fdc5c523b45f0d56d657e17f7b',1,'torch_tensor_device_name(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a319c921d3abe8bdb14140b45afe9afdb',1,'torch_tensor_device_name(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fempty_5for_5fon_5fcpu_5fcheck_23',['torch_tensor_empty_or_on_cpu_check',['../sparse__ops__utils_8h.html#a6328f240dd58293d0349471dca28797e',1,'torch_tensor_empty_or_on_cpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#afc4520e447e8ad48a316af75860d84ae',1,'torch_tensor_empty_or_on_cpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fempty_5for_5fon_5fcuda_5fgpu_5fcheck_24',['torch_tensor_empty_or_on_cuda_gpu_check',['../sparse__ops__utils_8h.html#abb9778e9fb75a70593c27e53dca268cd',1,'torch_tensor_empty_or_on_cuda_gpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#aac863615b6eba91282fcf07b5e9a5460',1,'torch_tensor_empty_or_on_cuda_gpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fcpu_5fcheck_25',['torch_tensor_on_cpu_check',['../sparse__ops__utils_8h.html#ad971d56f6b82b6c62a2d6fed276b0463',1,'torch_tensor_on_cpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#af4afd1e331412cf092a70d0fd816aed8',1,'torch_tensor_on_cpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fcuda_5fgpu_5fcheck_26',['torch_tensor_on_cuda_gpu_check',['../sparse__ops__utils_8h.html#a5568d44e6066339da1326798f9637b16',1,'torch_tensor_on_cuda_gpu_check(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a99211623695fce2a359b74a5823b58b8',1,'torch_tensor_on_cuda_gpu_check(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fon_5fsame_5fdevice_5fcheck_27',['torch_tensor_on_same_device_check',['../sparse__ops__utils_8h.html#a5683dd4c2143c3c0ba0eeb80fd5223f0',1,'torch_tensor_on_same_device_check(const at::Tensor &amp;ten1, const at::Tensor &amp;ten2):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#ac60c66ce5a4058e4906907960f82f1be',1,'torch_tensor_on_same_device_check(const at::Tensor &amp;ten1, const c10::optional&lt; at::Tensor &gt; &amp;ten2):&#160;sparse_ops_utils.h']]],
+  ['torch_5ftensor_5fundefined_28',['torch_tensor_undefined',['../sparse__ops__utils_8h.html#ab583553d9bf8ca92fadb8a81ffd40cd8',1,'torch_tensor_undefined(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#a5e916ca6a05a17d36e5341d929cc18e0',1,'torch_tensor_undefined(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['transpose_29',['transpose',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa4aba7637a10c7b8b839ef27952e855d',1,'fbgemm_gpu::GenericPackedTensorAccessor::transpose()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a0ed7d1e6f585332c781fc568e1fad1ac',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::transpose()']]],
+  ['transpose_5fembedding_5finput_30',['transpose_embedding_input',['../split__embeddings__utils_8cuh.html#a508f832d3fec529868cbb1f9fa9defc8',1,'transpose_embedding_input(at::Tensor hash_size_cumsum, int64_t total_hash_size_bits, at::Tensor indices, at::Tensor offsets, bool nobag=false, const c10::optional&lt; at::Tensor &gt; &amp;vbe_b_t_map=c10::optional&lt; at::Tensor &gt;(), const int64_t info_B_num_bits=26, const int64_t info_B_mask=0x2FFFFFF, const int64_t total_unique_indices=-1, const bool is_index_select=false, const c10::optional&lt; at::Tensor &gt; &amp;total_L_offsets=c10::optional&lt; at::Tensor &gt;(), const int64_t fixed_L_per_warp=0, const int64_t num_warps_per_feature=0):&#160;split_embeddings_utils.cuh'],['../transpose__embedding__input_8cu.html#a569a769e3233130cce363d9ae151bd26',1,'transpose_embedding_input(Tensor hash_size_cumsum, int64_t total_hash_size_bits, Tensor indices, Tensor offsets, bool nobag, const c10::optional&lt; Tensor &gt; &amp;vbe_b_t_map, const int64_t info_B_num_bits, const int64_t info_B_mask, const int64_t total_unique_indices, const bool is_index_select, const c10::optional&lt; Tensor &gt; &amp;total_L_offsets, const int64_t fixed_L_per_warp, const int64_t num_warps_per_feature):&#160;transpose_embedding_input.cu']]],
+  ['trapz_5fkernel_31',['trapz_kernel',['../namespacefbgemm__gpu.html#a45142e19fe831c9d085bb097b7d946b2',1,'fbgemm_gpu']]],
+  ['true_32',['true',['../gen__embedding__backward__split__grad_8cu.html#af0ccb06b8169682c123d1399ed8e1869',1,'true():&#160;gen_embedding_backward_split_grad.cu'],['../namespacenbit.html#ae298c42e84018c608c72200f61270827',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a9233b0f37aec7890155371e3f1f8a4c6',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ad461b37bcc67ce85965ea3d63318b609',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6610e53a686bcaa7c0c055493223b286',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa0e536c5986677aa5c753d497c9ec6ea',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a744a48f6ba12a807eed65323fac0d7b9',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa7f9e825cb23814721fa128e75fd54df',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#af5e4b89707ccb6db711f4b214120f6d4',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae950ec6b1a6c8e70896ceea8585e8a94',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a80b1856aa5c50bef02b6cfc6e07a738f',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5190453e12b3ae3d90ccbad2d0fd3366',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aeab80be016250076834edd018371fadc',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ac4473fe74a275df878cef6094b97142f',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5e7304badb9669f2af28007bc9faa533',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a000a2e8569876d491d4d9578f5bca2fb',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a1b561270c0c573adbb9b099b20a3ca71',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aa4e2b761fd2635bd5d972c84f9e28837',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aea0485b6b1bbf758999bd85f6affc052',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ab843cff102b60ffbfb639c2371b90f7b',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a085775b780406668fe81c55a30eb3098',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a5614c839b9baa44dd6962fe11a148918',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#af580fa47263724bff70ce910764bea41',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#acb54005a5872970a6721deca8ff5cd99',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a7d2686b58c584f889807ad3902056eac',1,'nbit::true(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a06d07c66722a850f758f54932d3dbe17',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1aa60c6099666e18389fa1e982910986',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8de160ae737c50e86160493247817870',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa74dcf7a765d22c0b1ec49310c9a04b3',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5649e552b4b7bb69095114018ba395fb',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9ec2bf37e5db917feed838745ed81985',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a16cf98f36e41cdcacdb6dabac0b258e0',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ab6f0a4b5648537896b38264e4d38f9aa',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e7e3a44299ea276cb2e5f5082977777',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3d5bd72dd7f6e6c6b0a50b2070e74f45',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af605abd85d3cc9e6dca40ea687104f6e',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9c2ae1d1bfa19b2caadbc8e76c32697c',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa41a6064cb3571ecd43c9da816216785',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a66d27435490ba7673e7362fca9cc8f7e',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad88bb49652d4d156c75abb8ca2419542',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0a28fe8dcfa38da6241b67d3ec3e4ff2',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a09d02507a5cf390975fafa6a5c7096e8',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa93f293dcfd38afcd57776f33ceb8490',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab59b0abf8963d48e63c90334daea4fc5',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab80c4590dcdff94d23d4f89f1c7e0039',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#addc9e8fb4cd569b143bff818ca6e068b',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aca3f7571841f3f5e46e703a210f5ef3d',1,'true(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afeba51154f1a22327b47305480f43671',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a4a3bc2db616d7f8f845d8e0cd092fd56',1,'true(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['two_5fto_5fe_33',['two_to_e',['../verify__fp16__stochastic__benchmark_8cu.html#ab29b4915253bcafe11f5d95cfb227c0b',1,'verify_fp16_stochastic_benchmark.cu']]]
+];
diff --git a/search/functions_15.js b/search/functions_15.js
new file mode 100644
index 000000000..07ba50396
--- /dev/null
+++ b/search/functions_15.js
@@ -0,0 +1,12 @@
+var searchData=
+[
+  ['unpack_5fsegments_5fcuda_5fkernel_0',['unpack_segments_cuda_kernel',['../namespacefbgemm__gpu.html#a0ca17769ee2a4593b447a78e3d3fe429',1,'fbgemm_gpu']]],
+  ['unpadded_5frow_5fsize_5fin_5fbytes_1',['unpadded_row_size_in_bytes',['../namespacenbit.html#a7654c0df9e54aa58c35fe39c53130cbc',1,'nbit']]],
+  ['uvm_5fcuda_5fmem_5fadvise_2',['uvm_cuda_mem_advise',['../group__cumem-utils.html#gae8c724e90d31245756fc4b0d975f9370',1,'fbgemm_gpu']]],
+  ['uvm_5fcuda_5fmem_5fprefetch_5fasync_3',['uvm_cuda_mem_prefetch_async',['../group__cumem-utils.html#gaf060db44e71e3419df6e596614ef2081',1,'fbgemm_gpu']]],
+  ['uvm_5fmem_5fadvice_5fdont_5ffork_4',['uvm_mem_advice_dont_fork',['../group__cumem-utils.html#ga01301ad686f7570c21e81c122d2c7af8',1,'fbgemm_gpu']]],
+  ['uvm_5fstorage_5',['uvm_storage',['../group__cumem-utils.html#ga05bf2c435c434904ca454c6992861cb6',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fcpu_6',['uvm_to_cpu',['../group__cumem-utils.html#gab5a3dab831988b1ce368ccc545b75b48',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fcpu_5fclone_7',['uvm_to_cpu_clone',['../group__cumem-utils.html#ga161495e682d9eac3701dca87469930db',1,'fbgemm_gpu']]],
+  ['uvm_5fto_5fdevice_8',['uvm_to_device',['../group__cumem-utils.html#gaebfedcf8e6017a6d4f6fb16b52c4c04e',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_16.js b/search/functions_16.js
new file mode 100644
index 000000000..b822fdfbd
--- /dev/null
+++ b/search/functions_16.js
@@ -0,0 +1,12 @@
+var searchData=
+[
+  ['vec4_5facc_0',['vec4_acc',['../namespacefbgemm__gpu.html#ab2a027e4907e39797b913faa6b4e7270',1,'fbgemm_gpu']]],
+  ['vec4_5fmax_1',['vec4_max',['../namespacefbgemm__gpu.html#a635410cfe229b71efb90199b72107f86',1,'fbgemm_gpu']]],
+  ['vec4_5fmin_2',['vec4_min',['../namespacefbgemm__gpu.html#ae8a02a5464fb9156400157b45a947c58',1,'fbgemm_gpu']]],
+  ['vec4acct_3',['Vec4AccT',['../structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90',1,'fbgemm_gpu::Vec4AccT']]],
+  ['vec4stept_4',['Vec4StepT',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a6d2826b97c8d5f17a31ed7e7854615ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;']]],
+  ['vec4t_5',['Vec4T',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; float &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::Vec4T(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae39dfa9a228f8ce23816438c9bdab827',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65',1,'fbgemm_gpu::Vec4T&lt; double &gt;::Vec4T(const double *p)']]],
+  ['vec_5fcopy_5fwith_5fimplicit_5ftype_5fcast_6',['vec_copy_with_implicit_type_cast',['../namespacefbgemm__gpu.html#a8c639f9912105390e4083332e01ecc57',1,'fbgemm_gpu']]],
+  ['vec_5fwidth_7',['VEC_WIDTH',['../namespacefbgemm__gpu.html#a14fea42ceabd6ac042ad0d2fe5452762',1,'fbgemm_gpu::VEC_WIDTH(combined_indices, indices_addrs[list_id], src_idx, indices_start+src_idx, indices_end - indices_start)'],['../namespacefbgemm__gpu.html#a5aef253d76748f681c0e5d7e1620c8c9',1,'fbgemm_gpu::VEC_WIDTH(combined_lengths, lengths_addrs[list_id], src_idx, lengths_start+src_idx, lengths_end - lengths_start)']]],
+  ['vecnt_8',['VecNT',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac774386ebb8ac7021a221b0d32041e40',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::VecNT(float a)'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a762e9c277918a40b3e1577984507b77d',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::VecNT(half2 a)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ae4b5f2ee834300f0c91a1e1f247b56a5',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::VecNT(uint32_t v, const int exp_bits, const int exp_bias)'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::VecNT()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::VecNT(uint32_t v, half2 shift_scale)']]]
+];
diff --git a/search/functions_17.js b/search/functions_17.js
new file mode 100644
index 000000000..bbc93a10d
--- /dev/null
+++ b/search/functions_17.js
@@ -0,0 +1,14 @@
+var searchData=
+[
+  ['warp_5fcopy_5fto_0',['warp_copy_to',['../structfbgemm__gpu_1_1_weight_row.html#a4a0da3213c0d4a99586cbe6e6ec72107',1,'fbgemm_gpu::WeightRow']]],
+  ['warp_5fevict_1',['warp_evict',['../structfbgemm__gpu_1_1_weight_row.html#ae00ddf1640cea584b79618dfd69d91d2',1,'fbgemm_gpu::WeightRow']]],
+  ['warp_5ffind_5fqparams_2',['warp_find_qparams',['../namespacefbgemm__gpu.html#a78a26de691da2f45a0e4ddaeda75009d',1,'fbgemm_gpu']]],
+  ['warp_5freduce_5fmax_3',['warp_reduce_max',['../namespacefbgemm__gpu.html#acddba9c219634f979df1c8b943ac5e88',1,'fbgemm_gpu']]],
+  ['warp_5freduce_5fmin_4',['warp_reduce_min',['../namespacefbgemm__gpu.html#af554571b877e978f495835af1920f4fb',1,'fbgemm_gpu']]],
+  ['warpbitonicmergele16_5',['warpBitonicMergeLE16',['../namespacefbgemm__gpu.html#a9bd92b10074adc4fc58e4671a1d1d576',1,'fbgemm_gpu']]],
+  ['warpreduceallsum_6',['warpReduceAllSum',['../namespacefbgemm__gpu.html#ad47dc8c3cfd941ea7a92b1cb677abf8e',1,'fbgemm_gpu']]],
+  ['weighted_5fsum_7',['weighted_sum',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::weighted_sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::weighted_sum()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aa7e031196d379ec4120ba58cd6b48024',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::weighted_sum()']]],
+  ['weightrow_8',['WeightRow',['../structfbgemm__gpu_1_1_weight_row.html#acb13973152d6d76389dafdf6e69e6793',1,'fbgemm_gpu::WeightRow']]],
+  ['while_9',['while',['../namespacefbgemm__gpu.html#a44128eca539acfe55bdf792616e8b5b6',1,'fbgemm_gpu']]],
+  ['write_5floop_5fsmall_5fls_10',['write_loop_small_Ls',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a784fce39007138a17294839676673bde',1,'write_loop_small_Ls(long *const smem, uint32_t *const write_idx, uint32_t *const bag_boundary, int32_t *const next_boundary, uint32_t *const L, Vec4StepT&lt; STEP, emb_t &gt; *const accumulator, const uint32_t params_offset, const uint32_t l, const bool process_d, const bool mean_pooling):&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/functions_18.js b/search/functions_18.js
new file mode 100644
index 000000000..6e78def8d
--- /dev/null
+++ b/search/functions_18.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['zipf_5fcuda_0',['zipf_cuda',['../namespacefbgemm__gpu.html#a957e5dced6114b32a6d2e5e62011adbf',1,'fbgemm_gpu']]],
+  ['zipf_5fkernel_1',['zipf_kernel',['../namespacefbgemm__gpu.html#a6991817ca1213e7cc0eba3bad689c03a',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_19.js b/search/functions_19.js
new file mode 100644
index 000000000..28e447783
--- /dev/null
+++ b/search/functions_19.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['_7ehypercompressedsparsecolumn_0',['~HyperCompressedSparseColumn',['../structinternal_1_1_hyper_compressed_sparse_column.html#a60d5f8ac0716350bb51bcf02ed10aaeb',1,'internal::HyperCompressedSparseColumn']]],
+  ['_7einitializer_1',['~Initializer',['../classssd_1_1_initializer.html#a7a69aed99981539d9a2c0ee85459b4b6',1,'ssd::Initializer']]]
+];
diff --git a/search/functions_2.js b/search/functions_2.js
index 9659821c5..ed60e090f 100644
--- a/search/functions_2.js
+++ b/search/functions_2.js
@@ -1,4 +1,28 @@
 var searchData=
 [
-  ['expand_5finto_5fjagged_5fpermute_5fcuda_0',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309',1,'fbgemm_gpu']]]
+  ['backward_0',['backward',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html#ac7ddba5222bfda33f8a498f8394349bf',1,'fbgemm_gpu::PermutePooledEmbsFunction::backward()'],['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#ad62a42e85be3aa7f972677a4f7b710f9',1,'fbgemm_gpu::PermutePooledEmbsFunctionSplit::backward()']]],
+  ['ballot_5fsync_1',['ballot_sync',['../namespacefbgemm__gpu.html#ac9ef3cbe68285c5559d30c5157131e29',1,'fbgemm_gpu']]],
+  ['batch_5fauc_2',['batch_auc',['../namespacefbgemm__gpu.html#abeeb6bd4d39a0e534db2213258704285',1,'fbgemm_gpu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcodegen_5fbackward_5fcuda_3',['batch_index_select_dim0_codegen_backward_cuda',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#a5709eebbefa399282269508003e47e25',1,'batch_index_select_dim0_codegen_backward_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const int64_t max_segment_length_per_warp, const Tensor &amp;grad_offsets, const Tensor &amp;total_L_offsets, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../batch__index__select__dim0__host_8cpp.html#a5709eebbefa399282269508003e47e25',1,'batch_index_select_dim0_codegen_backward_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;hash_size_cumsum, const int64_t total_hash_size_bits, const Tensor &amp;indices, const int64_t max_segment_length_per_warp, const Tensor &amp;grad_offsets, const Tensor &amp;total_L_offsets, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcodegen_5fforward_5fcuda_4',['batch_index_select_dim0_codegen_forward_cuda',['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#a5951ed801e11a01c29c7bbfb648ee230',1,'batch_index_select_dim0_codegen_forward_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const int64_t output_dtype, const Tensor &amp;output_offsets, const Tensor &amp;total_L_offsets, const int64_t output_size, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../batch__index__select__dim0__host_8cpp.html#a5951ed801e11a01c29c7bbfb648ee230',1,'batch_index_select_dim0_codegen_forward_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const int64_t output_dtype, const Tensor &amp;output_offsets, const Tensor &amp;total_L_offsets, const int64_t output_size, const int32_t fixed_L_per_warp, const int32_t num_warps_per_feature, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu']]],
+  ['batch_5findex_5fselect_5fdim0_5fcpu_5',['batch_index_select_dim0_cpu',['../batch__index__select__dim0__cpu__host_8cpp.html#aa719f2231fb791074324f6bbeace9d0c',1,'batch_index_select_dim0_cpu_host.cpp']]],
+  ['batch_5findex_5fselect_5fdim0_5fgpu_6',['batch_index_select_dim0_gpu',['../batch__index__select__dim0__host_8cpp.html#a5bad7a4ddb5cf6144ad19b6296ef585c',1,'batch_index_select_dim0_host.cpp']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_7',['batched_dense_vec_jagged_2d_mul',['../group__jagged-tensor-ops-cpu.html#ga67afdd148d57be07278c9cb088b5ff4b',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_8',['batched_dense_vec_jagged_2d_mul_backward',['../namespacefbgemm__gpu.html#ae815e5156f29e106f0fcb6054d386afa',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fbackward_5fmeta_9',['batched_dense_vec_jagged_2d_mul_backward_meta',['../namespacefbgemm__gpu.html#af5324c97be6dc5aecbc40e4e3244646f',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_10',['batched_dense_vec_jagged_2d_mul_forward',['../namespacefbgemm__gpu.html#ac3080e0008d5cdd9f1f32b33e38aee95',1,'fbgemm_gpu']]],
+  ['batched_5fdense_5fvec_5fjagged_5f2d_5fmul_5fforward_5fmeta_11',['batched_dense_vec_jagged_2d_mul_forward_meta',['../namespacefbgemm__gpu.html#a399af8be70030a7aeaedbdf546efe61a',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fbackward_5fcuda_12',['batched_unary_embeddings_backward_cuda',['../namespacefbgemm__gpu.html#a0e4965515624f44fcd114ff1e5ff0998',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fforward_5fcpu_13',['batched_unary_embeddings_forward_cpu',['../namespacefbgemm__gpu.html#a96db75aa5b2617976c2937ab051b737e',1,'fbgemm_gpu']]],
+  ['batched_5funary_5fembeddings_5fforward_5fcuda_14',['batched_unary_embeddings_forward_cuda',['../namespacefbgemm__gpu.html#a9895cf76445e7258f2464bb037d2c54c',1,'fbgemm_gpu']]],
+  ['benchmark_5ffunction_15',['benchmark_function',['../bench__utils_8cuh.html#a8b8729bf92a232e1ff3403ebe7089fdd',1,'bench_utils.cuh']]],
+  ['bfloat16quantizedtofloat_5fref_16',['BFloat16QuantizedToFloat_ref',['../namespacefbgemm__gpu.html#a0f1d1afe56f116552e1ca9759e6e0fcc',1,'fbgemm_gpu']]],
+  ['binary_5fsearch_5frange_17',['binary_search_range',['../namespacefbgemm__gpu.html#a13b4df4139f3c64ac4d8dbea51a7e7a0',1,'fbgemm_gpu']]],
+  ['binary_5fsearch_5frange_5fcpu_18',['binary_search_range_cpu',['../sparse__ops__utils_8h.html#a519154f3b89148b1b70e45d8c340ff81',1,'sparse_ops_utils.h']]],
+  ['block_5fbucketize_5fsparse_5ffeatures_5fcpu_19',['block_bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a270e4d8df103fa6c3e6750890608b566',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fsparse_5ffeatures_5fcuda_20',['block_bucketize_sparse_features_cuda',['../namespacefbgemm__gpu.html#a293dc249ac4679d97747778a7fb02bd5',1,'fbgemm_gpu']]],
+  ['bounds_5fcheck_5f_21',['bounds_check_',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a0e958eecb22f175be483bef10d6e2597',1,'fbgemm_gpu::GenericPackedTensorAccessorBase']]],
+  ['bounds_5fcheck_5findices_5fcuda_22',['bounds_check_indices_cuda',['../group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e',1,'bounds_check_indices_cuda(Tensor &amp;rows_per_table, Tensor &amp;indices, Tensor &amp;offsets, int64_t bounds_check_mode_, Tensor &amp;warning, const c10::optional&lt; Tensor &gt; &amp;weights, const c10::optional&lt; Tensor &gt; &amp;B_offsets, const int64_t max_B):&#160;embedding_bounds_check.cu'],['../group__embedding-cuda.html#gad1c20ea2ace30c269811890919ebdb6e',1,'bounds_check_indices_cuda(Tensor &amp;rows_per_table, Tensor &amp;indices, Tensor &amp;offsets, int64_t bounds_check_mode, Tensor &amp;warning, const c10::optional&lt; Tensor &gt; &amp;weights, const c10::optional&lt; Tensor &gt; &amp;B_ofsets, const int64_t max_B):&#160;embedding_bounds_check.cu']]],
+  ['bucketize_5fsparse_5ffeatures_5fcpu_23',['bucketize_sparse_features_cpu',['../namespacefbgemm__gpu.html#a83c70249ce058969210bda8aedf671a4',1,'fbgemm_gpu']]],
+  ['bucketize_5fsparse_5ffeatures_5fcuda_24',['bucketize_sparse_features_cuda',['../namespacefbgemm__gpu.html#abb94f2bd00f8ee054a4a1d2417a093d1',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_3.js b/search/functions_3.js
index cf90c2986..767821b32 100644
--- a/search/functions_3.js
+++ b/search/functions_3.js
@@ -1,5 +1,29 @@
 var searchData=
 [
-  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_0',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
-  ['get_5funique_5findices_5fcuda_1',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]]
+  ['calc_5foffsets_5frange_5fthread_5fblock_0',['calc_offsets_range_thread_block',['../namespacefbgemm__gpu.html#ae0656dd690bcffdd8b470d894e25b2d8',1,'fbgemm_gpu']]],
+  ['cat_5freorder_5fbatched_5fad_5findices_5fcpu_1',['cat_reorder_batched_ad_indices_cpu',['../namespacefbgemm__gpu.html#a1ed236113fa360c41a2eb0507c3fc2c7',1,'fbgemm_gpu']]],
+  ['cat_5freorder_5fbatched_5fad_5findices_5fcpu_5f_2',['cat_reorder_batched_ad_indices_cpu_',['../namespacefbgemm__gpu.html#a6b5e65a3f532db97f093037c9dcb3902',1,'fbgemm_gpu']]],
+  ['compact_3',['compact',['../classssd_1_1_embedding_rocks_d_b.html#a043cdfc194924194e381a986c229569e',1,'ssd::EmbeddingRocksDB']]],
+  ['compact_5fif_5fnecessary_4',['compact_if_necessary',['../classssd_1_1_embedding_rocks_d_b.html#a92b07dcd61720ad3a72dbbad89c26514',1,'ssd::EmbeddingRocksDB']]],
+  ['compute_5ffrequency_5fsequence_5',['compute_frequency_sequence',['../namespacefbgemm__gpu.html#a6b41d7b032eb1abe61eee0bd903d8dfb',1,'fbgemm_gpu']]],
+  ['compute_5fnum_5fuint64s_6',['compute_num_uint64s',['../namespacefbgemm__gpu.html#af861e4a8f7b669619744fe59ca2f73a3',1,'fbgemm_gpu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fassemblefloat_7',['convert_float_to_half_assemblefloat',['../verify__fp16__stochastic__benchmark_8cu.html#abbb1b78a4249b42b116429258ac56174',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fbitcarry_8',['convert_float_to_half_bitcarry',['../verify__fp16__stochastic__benchmark_8cu.html#a46898a808f7408d99e7ad4c7fc0fea2a',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fdirect_9',['convert_float_to_half_direct',['../verify__fp16__stochastic__benchmark_8cu.html#a169a7087c41e8efae2d09cfc78fa802e',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['convert_5ffloat_5fto_5fhalf_5fshortrand_10',['convert_float_to_half_shortrand',['../verify__fp16__stochastic__benchmark_8cu.html#ab109332ca0fae3f39a7d000348a1401c',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['copy_11',['copy',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aa3322732b0a44cf924b89a066f4503d4',1,'fbgemm_gpu::Vec4T&lt; float &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad6a7665bbc9596b7b9123c9a0605fe1c',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a140a9bcb80dcfae69a427d885d148952',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::copy()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8af22674533453883301576ae485699c',1,'fbgemm_gpu::Vec4T&lt; double &gt;::copy()']]],
+  ['copy_5fstr_12',['copy_str',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7c56e8e49eb26679b9cf3a65c3bd38a9',1,'fbgemm_gpu::GenericPackedTensorAccessorBase']]],
+  ['cp_5fasync_5ffence_13',['cp_async_fence',['../namespacenbit.html#a9d3f5c31c0728bd8031522979f9fd236',1,'nbit']]],
+  ['cp_5fasync_5fwait_14',['cp_async_wait',['../namespacenbit.html#ab71806d51c0bb2fbc0b08fb3ed2b442e',1,'nbit']]],
+  ['cp_5fasync_5fwait_3c_200_20_3e_15',['cp_async_wait&lt; 0 &gt;',['../namespacenbit.html#a869b22b83f81fa2ed2302ceb80d9b9ca',1,'nbit']]],
+  ['cp_5fasync_5fzfill_16',['cp_async_zfill',['../namespacenbit.html#ac46112b67b5de646034bc1d35d44c8fe',1,'nbit']]],
+  ['cp_5fasync_5fzfill_5fcg_17',['cp_async_zfill_cg',['../namespacenbit.html#a7f38bc64db06ad5e5ee1b4efa55c349d',1,'nbit']]],
+  ['csr2csc_18',['csr2csc',['../namespaceinternal.html#adff2ce52cb6a5e84b57614a452aa77d5',1,'internal']]],
+  ['csr2csc_3c_20double_20_3e_19',['csr2csc&lt; double &gt;',['../namespaceinternal.html#ab8f896e4d2c97b1369a8e5fb7d9408b7',1,'internal']]],
+  ['csr2csc_3c_20float_20_3e_20',['csr2csc&lt; float &gt;',['../namespaceinternal.html#a3715c6c222855aa1b842c358fe2a6420',1,'internal']]],
+  ['cuda_5fcalc_5fblock_5fcount_21',['cuda_calc_block_count',['../sparse__ops__utils_8h.html#ab702f2479ba0bedf91c18e0b644b210a',1,'sparse_ops_utils.h']]],
+  ['cuda_5fcalc_5fxblock_5fcount_22',['cuda_calc_xblock_count',['../sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369',1,'sparse_ops_utils.h']]],
+  ['cuda_5fcalc_5fxblock_5fcount_5fbase_23',['cuda_calc_xblock_count_base',['../sparse__ops__utils_8h.html#a885f787cafec301665604303ae43a2e3',1,'sparse_ops_utils.h']]],
+  ['cuda_5fkernel_5floop_24',['CUDA_KERNEL_LOOP',['../namespacefbgemm__gpu.html#a14c0f0b2b6107f2b17eb472d9be9fb03',1,'fbgemm_gpu::CUDA_KERNEL_LOOP(b_t, lengths_size)'],['../namespacefbgemm__gpu.html#ab331d23c5119efeb513b36fed74c53b0',1,'fbgemm_gpu::CUDA_KERNEL_LOOP(r, lengths_size)']]],
+  ['cutlass_5fget_5fsmem_5fpointer_25',['cutlass_get_smem_pointer',['../namespacenbit.html#a64cf76bab7c5be6cb2b0c7d1b77443a5',1,'nbit::cutlass_get_smem_pointer(void *ptr)'],['../namespacenbit.html#a250008d643379010295dede0b64068c6',1,'nbit::cutlass_get_smem_pointer(void const *ptr)']]]
 ];
diff --git a/search/functions_4.js b/search/functions_4.js
index 46cb13feb..ec0b17a01 100644
--- a/search/functions_4.js
+++ b/search/functions_4.js
@@ -1,5 +1,32 @@
 var searchData=
 [
-  ['histogram_5fbinning_5fcalibration_5fcpu_0',['histogram_binning_calibration_cpu',['../group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca',1,'fbgemm_gpu']]],
-  ['host_5flxu_5fcache_5fslot_1',['host_lxu_cache_slot',['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu']]]
+  ['d_0',['D',['../classfbgemm__gpu_1_1_fixed_divisor.html#aa0904583fc7c962f6ae008052d6dadf7',1,'fbgemm_gpu::FixedDivisor']]],
+  ['data_1',['data',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c',1,'fbgemm_gpu::TensorAccessorBase::data()'],['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b',1,'fbgemm_gpu::TensorAccessorBase::data() const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a00eb43c6e0e2f9b3a5d083cf44bad46c',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data()'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a445a0aad25aa4b10485392cab109a77b',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data() const']]],
+  ['db_5fshard_2',['db_shard',['../namespacessd.html#ac0918c17a5ef4ae94a7d4068512744f9',1,'ssd']]],
+  ['decl_5fradix_5fsort_5fpairs_5ffn_3',['DECL_RADIX_SORT_PAIRS_FN',['../split__embeddings__utils_8cuh.html#a07c7c57b2dd34f8dcede30593003253c',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, float):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a665ecb055cdda875801b442d35297e10',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, double):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a68379ca489210e052be87595ff7c1ec7',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, int64_t):&#160;split_embeddings_utils.cuh'],['../split__embeddings__utils_8cuh.html#a94564bf3eeebee1b64b0fe3ba0b3b7e0',1,'DECL_RADIX_SORT_PAIRS_FN(int64_t, int32_t):&#160;split_embeddings_utils.cuh']]],
+  ['def_5fradix_5fsort_5fpairs_5ffn_4',['DEF_RADIX_SORT_PAIRS_FN',['../radix__sort__pairs_8cu.html#aca8b050260de3f4f24d6bb405cbbdd85',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, float):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#a8ff9c3ca029c1596694941f07c7b2dc4',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, double):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#a932f303789b405fceb31dd0f40f10d43',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, int64_t):&#160;radix_sort_pairs.cu'],['../radix__sort__pairs_8cu.html#ac3e8e7f0d44c6e7d4a5aea790dca2526',1,'DEF_RADIX_SORT_PAIRS_FN(int64_t, int32_t):&#160;radix_sort_pairs.cu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_5',['dense_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#a840483d38dd0ee3fe4b398ebee5bf3d7',1,'dense_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a840483d38dd0ee3fe4b398ebee5bf3d7',1,'dense_embedding_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5funweighted_5fmeta_6',['dense_embedding_codegen_forward_unweighted_meta',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9e6ce9ed24a999160137cd295420a9f',1,'gen_embedding_forward_dense_unweighted_codegen_meta.cpp']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_7',['dense_embedding_codegen_forward_weighted_cuda',['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#a4e4e521f171d17c5d78bee2b3c9b21db',1,'dense_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#a4e4e521f171d17c5d78bee2b3c9b21db',1,'dense_embedding_codegen_forward_weighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t total_D, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t pooling_mode, const Tensor &amp;indice_weights, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fcodegen_5fforward_5fweighted_5fmeta_8',['dense_embedding_codegen_forward_weighted_meta',['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#ac89d0c2dc36fc6053f0425a919711b3a',1,'gen_embedding_forward_dense_weighted_codegen_meta.cpp']]],
+  ['dense_5fembedding_5fcodegen_5fgrad_5findice_5fweights_5fcuda_9',['dense_embedding_codegen_grad_indice_weights_cuda',['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#aa413d80f0ebbadd4375b29cfb27654b3',1,'dense_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aa413d80f0ebbadd4375b29cfb27654b3',1,'dense_embedding_codegen_grad_indice_weights_cuda(const Tensor &amp;grad_output, const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const Tensor &amp;D_offsets, const int64_t max_D, const Tensor &amp;indices, const Tensor &amp;offsets, const Tensor &amp;feature_requires_grad):&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_10',['dense_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#aadd3974603c08fba6a7c21638a57e7f4',1,'dense_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../embedding__backward__dense__host_8cpp.html#aadd3974603c08fba6a7c21638a57e7f4',1,'dense_embedding_nobag_codegen_forward_unweighted_cuda(const Tensor &amp;dev_weights, const Tensor &amp;weights_offsets, const int64_t D, const Tensor &amp;indices, const Tensor &amp;offsets, const int64_t output_dtype, const bool is_experimental):&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu']]],
+  ['dense_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fmeta_11',['dense_embedding_nobag_codegen_forward_unweighted_meta',['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#ac9b06d5bef944e3f22c1b7d5faf0cc73',1,'gen_embedding_forward_dense_unweighted_codegen_meta.cpp']]],
+  ['dense_5fto_5fjagged_12',['dense_to_jagged',['../group__jagged-tensor-ops-cpu.html#gae25fa8a028fc083f06e445e1d2ebb208',1,'fbgemm_gpu']]],
+  ['dense_5fto_5fjagged_5fforward_13',['dense_to_jagged_forward',['../namespacefbgemm__gpu.html#aa5a76157eb45b9bd4159a548e8a73ce6',1,'fbgemm_gpu']]],
+  ['dequantize_5fload_14',['dequantize_load',['../namespacefbgemm__gpu.html#aee340827dbc6c104a400c30f47f3ee3b',1,'fbgemm_gpu::dequantize_load(const src_t *value, const float2)'],['../namespacefbgemm__gpu.html#a74358134402be54c82696697fe766b9a',1,'fbgemm_gpu::dequantize_load(const uint8_t *value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aaed854f05a4542637ac342bfab57bdc7',1,'fbgemm_gpu::dequantize_load(const uint8_t *value, const float2 qparams)']]],
+  ['dequantize_5fpacked_5fhfp8_15',['dequantize_packed_hfp8',['../namespacefbgemm__gpu.html#a0c388276a962d14b3070dc55202eaf66',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint2_16',['dequantize_permuted_int2',['../namespacefbgemm__gpu.html#a96be7f5b4c81d93bf024348e7b85e364',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint4_17',['dequantize_permuted_int4',['../namespacefbgemm__gpu.html#a2cf47d59251a0840fd370a95fa371681',1,'fbgemm_gpu']]],
+  ['dequantize_5fpermuted_5fint8_18',['dequantize_permuted_int8',['../namespacefbgemm__gpu.html#adec3504b0909c4380da3c0aac89055de',1,'fbgemm_gpu']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcpu_19',['direct_mapped_lru_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#ac827cf6cd0f063a6747deaff14e4902d',1,'fbgemm_gpu']]],
+  ['direct_5fmapped_5flru_5fcache_5fpopulate_5fbyte_5fcuda_20',['direct_mapped_lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b',1,'direct_mapped_lru_cache_populate_byte_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, at::Tensor lxu_cache_miss_timestamp, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate__byte_8cu.html#ab944b6f7e1df36b8ef0c4a911c1b0afb',1,'direct_mapped_lru_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, int64_t time_stamp, Tensor lru_state, Tensor lxu_cache_miss_timestamp, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lru_cache_populate_byte.cu']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcpu_21',['direct_mapped_lxu_cache_lookup_cpu',['../namespacefbgemm__gpu.html#a03949dd527b81758e43a4b48800c3bc6',1,'fbgemm_gpu']]],
+  ['direct_5fmapped_5flxu_5fcache_5flookup_5fcuda_22',['direct_mapped_lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49',1,'direct_mapped_lxu_cache_lookup_cuda(at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#a9a01f6df03e867e1871df306a6289e06',1,'direct_mapped_lxu_cache_lookup_cuda(Tensor linear_cache_indices, Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lxu_cache.cu']]],
+  ['div_23',['div',['../structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da',1,'fbgemm_gpu::Vec4AccT']]],
+  ['div_24',['Div',['../classfbgemm__gpu_1_1_fixed_divisor.html#a74e5cb4569d6d48cbc0ee32674a7e374',1,'fbgemm_gpu::FixedDivisor']]],
+  ['div_5fround_5fup_25',['div_round_up',['../namespacenbit.html#a620ba1c7dba3e279e09759758b7a86db',1,'nbit::div_round_up()'],['../namespacefbgemm__gpu.html#a1e5f0f7703057bbda166a7723b16e6ef',1,'fbgemm_gpu::div_round_up()']]],
+  ['divmod_26',['DivMod',['../classfbgemm__gpu_1_1_fixed_divisor.html#abea2bdfe3649f1b944a15453e78ae523',1,'fbgemm_gpu::FixedDivisor::DivMod()'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329',1,'DivMod(global_warp_id, &amp;t, &amp;table_warp_id):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a31faa05b32d14aec34e66800b6092329',1,'DivMod(global_warp_id, &amp;t, &amp;table_warp_id):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#aef6bada16cf81832eb1e594eb47875d8',1,'fbgemm_gpu::DivMod(global_warp_id, reinterpret_cast&lt; int32_t * &gt;(&amp;list_id), reinterpret_cast&lt; int32_t * &gt;(&amp;warp_id))']]],
+  ['dummy_5fpacked_5faccessor32_27',['dummy_packed_accessor32',['../namespacefbgemm__gpu.html#a86a8cc18b54f6986ec4faeec0b223907',1,'fbgemm_gpu']]],
+  ['dummy_5fpacked_5faccessor64_28',['dummy_packed_accessor64',['../namespacefbgemm__gpu.html#aeb6f64d8ceb0189b03aa6808b97e8b16',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_5.js b/search/functions_5.js
index 1db2fa6fd..393e65828 100644
--- a/search/functions_5.js
+++ b/search/functions_5.js
@@ -1,5 +1,16 @@
 var searchData=
 [
-  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_0',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
-  ['is_5fuvm_5ftensor_1',['is_uvm_tensor',['../group__cumem-utils.html#ga0b9f28b07d3796a732b1fb73b8e10e7e',1,'fbgemm_gpu']]]
+  ['element_5fwise_5fmul_5f_0',['element_wise_mul_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::element_wise_mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::element_wise_mul_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae653589cf39f92811f8509363515532d',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::element_wise_mul_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8c36671f882604ae41f214e978ebf04b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::element_wise_mul_(const Vec4T&lt; float &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae653589cf39f92811f8509363515532d',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::element_wise_mul_(const Vec4T&lt; at::Half &gt; &amp;a)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a077873e0dd3516731c2302c7b3dee475',1,'fbgemm_gpu::Vec4T&lt; double &gt;::element_wise_mul_()']]],
+  ['embedding_5fbag_5frowwise_5fprune_1',['embedding_bag_rowwise_prune',['../namespacefbgemm__gpu.html#ae586c9948dba8a67abf44ada58425fba',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fcpu_2',['embedding_inplace_update_cpu',['../namespacefbgemm__gpu.html#aaa1807fa25793e61743b75d27db063cc',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fcpu_5fkernel_3',['embedding_inplace_update_cpu_kernel',['../namespacefbgemm__gpu.html#af3e9e1ce0f6340f233ef6ae8934454cf',1,'fbgemm_gpu']]],
+  ['embedding_5finplace_5fupdate_5fcuda_4',['embedding_inplace_update_cuda',['../namespacefbgemm__gpu.html#a54bf7e9b54b5263cf039100cda517c34',1,'fbgemm_gpu']]],
+  ['embeddingrocksdb_5',['EmbeddingRocksDB',['../classssd_1_1_embedding_rocks_d_b.html#a703b26ce10b84fa35ea496114f1ebbb5',1,'ssd::EmbeddingRocksDB']]],
+  ['emulate_5fcache_5fmiss_6',['emulate_cache_miss',['../split__embeddings__cache__cuda_8cuh.html#a8f112d04838c2019df06ffbb84dbafba',1,'emulate_cache_miss(at::Tensor lxu_cache_locations, const int64_t enforced_misses_per_256, const bool gather_cache_stats, at::Tensor uvm_cache_stats):&#160;lru_cache_find.cu'],['../lru__cache__find_8cu.html#a8a80ce6ea3d62b9f22ac391767b34538',1,'emulate_cache_miss(Tensor lxu_cache_locations, const int64_t enforced_misses_per_256, const bool gather_cache_stats, Tensor uvm_cache_stats):&#160;lru_cache_find.cu']]],
+  ['enum_5fquery_7',['enum_query',['../classfbgemm__gpu_1_1enum__registration.html#a84cad106fb24ea59687f6708d197cc64',1,'fbgemm_gpu::enum_registration']]],
+  ['enum_5fregistration_8',['enum_registration',['../classfbgemm__gpu_1_1enum__registration.html#afa13a8542c6dde450214a387cacf3a9b',1,'fbgemm_gpu::enum_registration']]],
+  ['evict_9',['evict',['../structfbgemm__gpu_1_1_weight_row.html#a64c9f91fe6b60f7294ce6bb363bdb234',1,'fbgemm_gpu::WeightRow']]],
+  ['exclusive_5fscan_5fptrs_5fcpu_10',['exclusive_scan_ptrs_cpu',['../namespacefbgemm__gpu.html#aa8eb0fcd765dc4580084f6d098604e0d',1,'fbgemm_gpu']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcpu_11',['expand_into_jagged_permute_cpu',['../namespacefbgemm__gpu.html#a02fab30a12d9d6ee6e6ae68bc8041481',1,'fbgemm_gpu']]],
+  ['expand_5finto_5fjagged_5fpermute_5fcuda_12',['expand_into_jagged_permute_cuda',['../group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_6.js b/search/functions_6.js
index 279f7e7e4..e21182499 100644
--- a/search/functions_6.js
+++ b/search/functions_6.js
@@ -1,6 +1,48 @@
 var searchData=
 [
-  ['jagged_5fdense_5felementwise_5fadd_0',['jagged_dense_elementwise_add',['../group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7',1,'fbgemm_gpu']]],
-  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_1',['jagged_dense_elementwise_add_jagged_output',['../group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c',1,'fbgemm_gpu']]],
-  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fcuda_2',['jagged_dense_elementwise_add_jagged_output_cuda',['../group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938',1,'fbgemm_gpu']]]
+  ['false_0',['false',['../gen__embedding__backward__split__grad_8cu.html#a05118d1db073d73fe80ee01b40791cf6',1,'false():&#160;gen_embedding_backward_split_grad.cu'],['../namespacenbit.html#af9110ca4f61dbcc64cf0f8118cdc97f1',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a249c23ff8c01f39126136bc2539952fe',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a508c0bc5d94dee1c736f755730ca2beb',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a4c70aaadd08c9449d6cedae3e20ea68c',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a90040b4a20a116df4d0c66c160e6e764',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#aab2d7afb4b654ce45cfc2748e78ac253',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a308832faa1970c724a5589233e352f17',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a04aec5313af7eaae824c4738345d4b6a',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a741f318d94db0cb3578afea1e4630cc9',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a7fd32cfedb1f12bb236748026afb62f0',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6798d1239a1e727f202aa623317a936c',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae6208ce34aaecc5de1eea88805352dda',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a0b028a0d4eab6f827b0747e791479111',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ab5d4641eabcd497e393236456c66f662',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a92aa5aa305b64d0be3324318e749f727',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a1628074b31c14dcc07fd3d859e9ddf89',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t row_alignment, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a6502e80c3fcff2fd9816c54de76346c5',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a62b93a28ed713cca24870802bd016e03',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a59ea73f8b7947242291927c972ebf040',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a0525091bf8439436819eef72a5c45ca6',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#ae661502dfcff9025fb909b009a194e2f',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::Half, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a4ef67d9b7b4ba3292ad30493c9daf596',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; at::BFloat16, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a3f1b79dd7ed41442b0dfb240f2ab0ec7',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; float, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../namespacenbit.html#a18e19fee6513187e93010f11a932f6de',1,'nbit::false(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; uint8_t, 1, at::RestrictPtrTraits &gt; weights_tys, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; offsets, const int64_t pooling_mode, const int64_t row_alignment, pta::PackedTensorAccessor32&lt; float, 1, at::RestrictPtrTraits &gt; indice_weights, const int exponent_bits, const int exponent_bias, pta::PackedTensorAccessor32&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output, const pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations)'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a311bf35bff79e995c3e6d7d2e6a69952',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8c5c41f01ea1d775126bc194e1e95ecc',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a16040890e0367b0669f51c05b4715ecd',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a8f19e545f5c45f11ee4c5898decb994c',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a54d26a841bc71bb0c9fdcb2f657d3058',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aaaa117179cc47a2a2fbdb86da6066081',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aff4f86de443efa79fda96f93b78b26d4',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0c3c6fbc30353d25b4ada5dba7ed9ad3',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a71b5f71e99a903571a45d1bfb5dd6537',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a678e19ebc31d391a2101878805cfec04',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5e71bf5354b291e99138e5b51a2c8987',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a39a233002f8c2aadb3206424d3cf33ed',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afb14ab09e129e59e6e323cc8ad114e0a',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac335cccca06f6bd0865b65bb20192a24',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a008e7d608ca15741939511b1f48878',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#acb117339908a6826b75877db094f909d',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, uint8_t *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#afbb29ff03c359916c050f25deac56e9e',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1695088ded9f86314e0bc374c4ad57f9',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af26c8601b994cb4ad7a7d08104ccc876',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab84745c1fc3e4c483778cc8dc325eb7f',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, at::Half *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a0b7156fcc5a6e05dd2ab1a0dd33f339d',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5acddab9f4eec4c91ba1403005c3ec7d',1,'false(const uint8_t *__restrict__ const dev_weights, const uint8_t *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79860db3c0c6c510a821d9ac0a4c6764',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const float *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7ccf30944601039563603d837470824c',1,'false(const float *__restrict__ const dev_weights, const float *__restrict__ const uvm_weights, const at::Half *__restrict__ const lxu_cache_weights, const int32_t *__restrict__ const weights_placements, const uint32_t B, const uint32_t T, const bool mean_pooling, const uint32_t max_D_cache, const FixedDivisor fd_num_warps_per_table, const int64_t *__restrict__ const indices, const float *__restrict__ const index_weights, const int64_t *__restrict__ const offsets, const uint32_t *__restrict__ const D_offsets, const int64_t *__restrict__ const weights_offsets, const int32_t *__restrict__ const lxu_cache_locations, float *__restrict__ const output):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['fbgemm_5fgpu_5fenum_5fregister_5fstart_1',['FBGEMM_GPU_ENUM_REGISTER_START',['../namespacefbgemm__gpu.html#a0e41e402bfba1e346c6dcc610252e94b',1,'fbgemm_gpu']]],
+  ['fbgemm_5fop_5fdispatch_2',['FBGEMM_OP_DISPATCH',['../batched__dense__vec__jagged__2d__mul__backward_8cu.html#a505e960fb46aaed90cbf00060c4f7f73',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul_backward&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul_backward):&#160;batched_dense_vec_jagged_2d_mul_backward.cu'],['../batched__dense__vec__jagged__2d__mul__forward_8cu.html#ae6d9314c75be8852a64432f06a618a51',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul_forward&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul_forward):&#160;batched_dense_vec_jagged_2d_mul_forward.cu'],['../dense__to__jagged__forward_8cu.html#a2f09e89f2172cc358cfffdc866220276',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;dense_to_jagged_forward&quot;, fbgemm_gpu::dense_to_jagged_forward):&#160;dense_to_jagged_forward.cu'],['../jagged__dense__bmm__forward_8cu.html#a10db24b3c6258b287f12eb591b6b1274',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_bmm_forward&quot;, fbgemm_gpu::jagged_dense_bmm_forward_cuda):&#160;jagged_dense_bmm_forward.cu'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#a4dc38a80ec480c8ba5e73920df40ade3',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_dense_elementwise_add_jagged_output_forward&quot;, fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output_forward):&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#a56064ede1846b15cd7ee664d3ac0f447',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul_backward&quot;, fbgemm_gpu::jagged_dense_elementwise_mul_backward):&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__dense__elementwise__mul__forward_8cu.html#a55ae1a4e6489decd594fc7c77fb36cd4',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul_forward&quot;, fbgemm_gpu::jagged_dense_elementwise_mul_forward):&#160;jagged_dense_elementwise_mul_forward.cu'],['../jagged__index__add__2d__forward_8cu.html#a6fbf3dbceb513f8dfa17d68303b4e1f1',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_index_add_2d_forward&quot;, fbgemm_gpu::jagged_index_add_2d_forward_cuda):&#160;jagged_index_add_2d_forward.cu'],['../jagged__index__select__2d__forward_8cu.html#a769ab9425e6b9229e5197a606072f7f7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_index_select_2d_forward&quot;, fbgemm_gpu::jagged_index_select_2d_forward_cuda):&#160;jagged_index_select_2d_forward.cu'],['../jagged__jagged__bmm__forward_8cu.html#ad970c4b273bd75194ccced952b277f40',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_jagged_bmm_forward&quot;, fbgemm_gpu::jagged_jagged_bmm_forward_cuda):&#160;jagged_jagged_bmm_forward.cu'],['../jagged__softmax__backward_8cu.html#af86af3150ade27ed65bffd51e7fd389a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax_backward&quot;, fbgemm_gpu::jagged_softmax_backward_cuda):&#160;jagged_softmax_backward.cu'],['../jagged__softmax__forward_8cu.html#ad64b64d7d37e8e47389d74bbb5b9287f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax_forward&quot;, fbgemm_gpu::jagged_softmax_forward_cuda):&#160;jagged_softmax_forward.cu'],['../jagged__tensor__ops_8cu.html#ae9145e7dc8cdcfab08478c78e11806ee',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;dense_to_jagged&quot;, fbgemm_gpu::dense_to_jagged):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#af36ae71857641f82f406e9d03287e165',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense&quot;, fbgemm_gpu::jagged_to_padded_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a63e1ce09a4f40dd4f79b7ceb985b2faf',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_add&quot;, fbgemm_gpu::jagged_dense_elementwise_add):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a4f366150fd0ce1400047ea614232e9f8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_dense_elementwise_add_jagged_output&quot;, fbgemm_gpu::jagged_dense_dense_elementwise_add_jagged_output):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#afd6b82766bc27ff6c2e957e57ec2947e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_mul&quot;, fbgemm_gpu::jagged_dense_elementwise_mul):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a83e06ed43d316e587c86bd1b83a233a8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;batched_dense_vec_jagged_2d_mul&quot;, fbgemm_gpu::batched_dense_vec_jagged_2d_mul):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a5a65d954fda4f3313d036b22b3232872',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_1d_to_dense&quot;, fbgemm_gpu::jagged_1d_to_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a84c5e68f36966340db42aa25785290df',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_2d_to_dense&quot;, fbgemm_gpu::jagged_2d_to_dense):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a6b3f90be325532b25c5df0c87c15e083',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_softmax&quot;, fbgemm_gpu::jagged_softmax):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a56fea1ad733f259a42c89661e1bf2637',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_jagged_bmm&quot;, fbgemm_gpu::jagged_jagged_bmm):&#160;jagged_tensor_ops.cu'],['../jagged__tensor__ops_8cu.html#a48e6bd6975582a7ce4ceff6712fa6ef9',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_bmm&quot;, fbgemm_gpu::jagged_dense_bmm):&#160;jagged_tensor_ops.cu'],['../jagged__to__padded__dense__backward_8cu.html#a0ec346f5fe59608b8e13809432c9a389',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense_backward&quot;, fbgemm_gpu::jagged_to_padded_dense_backward):&#160;jagged_to_padded_dense_backward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a1526839450b4cbf68a2d6a70673e273a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_to_padded_dense_forward&quot;, fbgemm_gpu::jagged_to_padded_dense_forward):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a9797a098549c8193d6beb70cb5d7da4f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_1d_to_dense&quot;, fbgemm_gpu::stacked_jagged_1d_to_dense_gpu):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a84d4e43e8339a03b14fe872dd3b2d50a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_gpu):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a61110a1a4f03edaa3322b245624b294e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense_forward&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_forward_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a1a53264bb9ade4d2796b87a966ab450c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;stacked_jagged_2d_to_dense_backward&quot;, fbgemm_gpu::stacked_jagged_2d_to_dense_backward_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__to__padded__dense__forward_8cu.html#a65d732670fec1bee849caf445b2903e7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_dense_elementwise_add_jagged_output&quot;, fbgemm_gpu::jagged_dense_elementwise_add_jagged_output_cuda):&#160;jagged_to_padded_dense_forward.cu'],['../jagged__unique__indices_8cu.html#a674314745cbd8dd913142d0660083851',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_unique_indices&quot;, fbgemm_gpu::jagged_unique_indices_cuda):&#160;jagged_unique_indices.cu'],['../jagged__unique__indices_8cu.html#aaf228a3ce26c3ae9c749573883b59be5',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;jagged_hash_size_cumsum&quot;, fbgemm_gpu::jagged_hash_size_cumsum_cuda):&#160;jagged_unique_indices.cu'],['../keyed__jagged__index__select__dim1_8cu.html#a69db0b3f600c7c45db29069cd05d3bea',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;keyed_jagged_index_select_dim1&quot;, fbgemm_gpu::keyed_jagged_index_select_dim_1_gpu):&#160;keyed_jagged_index_select_dim1.cu'],['../merge__pooled__embedding__ops__cpu_8cpp.html#a1ec90ab98c9d6c18099549dce392fd65',1,'FBGEMM_OP_DISPATCH(CPU, &quot;merge_pooled_embeddings&quot;, fbgemm_gpu::merge_pooled_embeddings_cpu):&#160;merge_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a37755fb9333b1017d34b49ee0247004e',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_pooled_embs&quot;, fbgemm_gpu::permute_pooled_embs_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a83bf468fc58e605fc64461726caad8cf',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a765ed01147edbd93b01e5f91fe12f68b',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_duplicate_pooled_embs&quot;, fbgemm_gpu::permute_duplicate_pooled_embs_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#aa0ac9a165fb46ae5738c08e0a887a97b',1,'FBGEMM_OP_DISPATCH(CPU, &quot;permute_duplicate_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_duplicate_pooled_embs_auto_grad_cpu):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a941e973d6b74e10046ae3373ba10bda2',1,'FBGEMM_OP_DISPATCH(Meta, &quot;permute_pooled_embs&quot;, fbgemm_gpu::permute_pooled_embs_meta):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a7590e07b38befcd57df567cb054cfad3',1,'FBGEMM_OP_DISPATCH(Meta, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad_meta):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__cpu_8cpp.html#a858ecafbed2f155f42fe99391b82e4b4',1,'FBGEMM_OP_DISPATCH(Autograd, &quot;permute_pooled_embs_auto_grad&quot;, fbgemm_gpu::permute_pooled_embs_auto_grad):&#160;permute_pooled_embedding_ops_cpu.cpp'],['../quantize__bfloat16_8cu.html#a44eca6a446116eaa006c5bd0488d62f2',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Bfloat16QuantizedToFloat&quot;, fbgemm_gpu::_bfloat16_to_float_gpu):&#160;quantize_bfloat16.cu'],['../quantize__bfloat16_8cu.html#a4ed2eb1cae3301906c55dc98ee5ce687',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToBfloat16Quantized&quot;, fbgemm_gpu::_float_to_bfloat16_gpu):&#160;quantize_bfloat16.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a360b78a6e199bcda032c8896708398db',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_float_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#afed513cf23a1957fa7f44309ed54288e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HalfToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_half_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#af35eb9fa075d341e379886496b6f2dad',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatOrHalfToFused8BitRowwiseQuantized&quot;, fbgemm_gpu::_single_or_half_precision_to_fused8bitrowwise_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#ac2c5ae3ba26c4c71b5e42651752f6e05',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloat&quot;, fbgemm_gpu::_fused8bitrowwise_to_float_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a5ed3f01bedfeee57b88e3343ebab204a',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToHalf&quot;, fbgemm_gpu::_fused8bitrowwise_to_half_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#ac5c42d23d15559e0fab4a67b274ac722',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloatOrHalf&quot;, fbgemm_gpu::_fused8bitrowwise_to_single_or_half_precision_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#a36f61e129797f0efa0fa02acd3bf1628',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;Fused8BitRowwiseQuantizedToFloatMixedDim&quot;, fbgemm_gpu::_fused8bitrowwise_to_float_mixed_dim_gpu):&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#ac0d21a1093187621384e9f7ee12af6f5',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_float_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#acc803cc30f01a51dcba4d3e89471a836',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HalfToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_half_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#a9235db627f7b35c43f5a8baee9c6e73f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatOrHalfToFusedNBitRowwiseQuantizedSBHalf&quot;, fbgemm_gpu::_float_or_half_to_fusednbitrowwise_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#a04df767b706b47ca163b528c0ec49659',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToFloat&quot;, fbgemm_gpu::_fusednbitrowwise_to_float_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#ae8e33c20c4bfee06ceac1b42b87d40e0',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToHalf&quot;, fbgemm_gpu::_fusednbitrowwise_to_half_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#af782044b726c577b026de55ab1e37681',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FusedNBitRowwiseQuantizedSBHalfToFloatOrHalf&quot;, fbgemm_gpu::_fusednbitrowwise_to_float_or_half_gpu):&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__hfp8_8cu.html#a38d08a293e27467dfdda3bb72ea27596',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToHFP8Quantized&quot;, fbgemm_gpu::_float_to_hfp8_gpu):&#160;quantize_hfp8.cu'],['../quantize__hfp8_8cu.html#a137d7c9cbf1612b410dd45b3bbebbea0',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;HFP8QuantizedToFloat&quot;, fbgemm_gpu::_hfp8_to_float_gpu):&#160;quantize_hfp8.cu'],['../quantize__msfp_8cu.html#abba68956be833439bf5ecabfe3880300',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToMSFPQuantized&quot;, fbgemm_gpu::_float_to_msfp_gpu):&#160;quantize_msfp.cu'],['../quantize__msfp_8cu.html#ace6d6f85efbdd32b7378b07a2e394166',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;MSFPQuantizedToFloat&quot;, fbgemm_gpu::_msfp_to_float_gpu):&#160;quantize_msfp.cu'],['../quantize__ops__gpu_8cpp.html#a0d298145c58d3db95b0838ab9e321626',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToFP8RowwiseQuantized&quot;, fbgemm_gpu::_float_to_FP8rowwise_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a0ae0af8cb484307360d889119a25a870',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FP8RowwiseQuantizedToFloat&quot;, fbgemm_gpu::_FP8rowwise_to_float_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a6f70026edd736cca0ec96d6369571e06',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;FloatToPaddedFP8RowwiseQuantized&quot;, fbgemm_gpu::_float_to_paddedFP8rowwise_gpu):&#160;quantize_ops_gpu.cpp'],['../quantize__ops__gpu_8cpp.html#a18e52d6b9f96ae0c9f7552f54808d958',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;PaddedFP8RowwiseQuantizedToFloat&quot;, fbgemm_gpu::_paddedFP8rowwise_to_float_gpu):&#160;quantize_ops_gpu.cpp'],['../sparse__async__cumsum_8cu.html#a37ee97bf0cf5f3e51b626963d0905d5d',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_exclusive_cumsum&quot;, fbgemm_gpu::asynchronous_exclusive_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__async__cumsum_8cu.html#a956fe5a496592a618c66c5cdd7e76aee',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_complete_cumsum&quot;, fbgemm_gpu::asynchronous_complete_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__async__cumsum_8cu.html#a1fe1796f45f950ba568e1f5fb38d3da8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;asynchronous_inclusive_cumsum&quot;, fbgemm_gpu::asynchronous_inclusive_cumsum_gpu):&#160;sparse_async_cumsum.cu'],['../sparse__block__bucketize__features_8cu.html#ac393348a81fe14a2734e4a221b3e028c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;block_bucketize_sparse_features&quot;, fbgemm_gpu::block_bucketize_sparse_features_cuda):&#160;sparse_block_bucketize_features.cu'],['../sparse__bucketize__features_8cu.html#a9f5c60b5d418eded60f0c447ae38c450',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;bucketize_sparse_features&quot;, fbgemm_gpu::bucketize_sparse_features_cuda):&#160;sparse_bucketize_features.cu'],['../sparse__expand__into__jagged__permute_8cu.html#af4f7b3da9350e95957c452753c2569a7',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;expand_into_jagged_permute&quot;, fbgemm_gpu::expand_into_jagged_permute_cuda):&#160;sparse_expand_into_jagged_permute.cu'],['../sparse__invert__permute_8cu.html#a472cc598c3ed7832c2866f8aaed5fdc8',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;invert_permute&quot;, fbgemm_gpu::invert_permute_cuda):&#160;sparse_invert_permute.cu'],['../sparse__permute102_8cu.html#aa5a7770ccd8e2e72012a3035579d2cfc',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute102_baddbmm_permute102&quot;, fbgemm_gpu::permute102_baddbmm_permute102_cuda):&#160;sparse_permute102.cu'],['../sparse__permute__1d_8cu.html#aa28c2751b385fa3416aa12a3dd2cb039',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_1D_sparse_data&quot;, fbgemm_gpu::permute_1D_sparse_data_cuda):&#160;sparse_permute_1d.cu'],['../sparse__permute__2d_8cu.html#ab884888820b4be2c942de1bf75211b2b',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sparse_data&quot;, fbgemm_gpu::permute_2D_sparse_data_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__2d_8cu.html#aab7fc0ba2b46743531f3d2fe4392be84',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_2D_sparse_data&quot;, fbgemm_gpu::permute_2D_sparse_data_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__2d_8cu.html#a16728339b915be3a73e7bced8598849f',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sparse_features&quot;, fbgemm_gpu::permute_sparse_features_cuda):&#160;sparse_permute_2d.cu'],['../sparse__permute__embeddings_8cu.html#a2281b30913187261c5233174f3f9622c',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;permute_sequence_embeddings&quot;, fbgemm_gpu::permute_sequence_embeddings_cuda):&#160;sparse_permute_embeddings.cu'],['../sparse__range_8cu.html#a85fc3de0cb5d8acd0c760b984ff30f3b',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;offsets_range&quot;, fbgemm_gpu::offsets_range_cuda):&#160;sparse_range.cu'],['../sparse__range_8cu.html#a7a62f9a9f0e7b39a3331e3cee8be776e',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;lengths_range&quot;, fbgemm_gpu::lengths_range_cuda):&#160;sparse_range.cu'],['../sparse__segment__sum__csr_8cu.html#ae64cf20351791f453c8f3156ed01c224',1,'FBGEMM_OP_DISPATCH(CUDA, &quot;segment_sum_csr&quot;, fbgemm_gpu::segment_sum_csr_cuda):&#160;sparse_segment_sum_csr.cu']]],
+  ['fixeddivisor_3',['FixedDivisor',['../classfbgemm__gpu_1_1_fixed_divisor.html#a80d1fd876167b0bbb2d6a7ebdaa97270',1,'fbgemm_gpu::FixedDivisor']]],
+  ['float16_5fmax_4',['float16_max',['../namespacefbgemm__gpu.html#acb046dd929c4c4190894087e0952b6ad',1,'fbgemm_gpu']]],
+  ['float16_5fmin_5',['float16_min',['../namespacefbgemm__gpu.html#aab696723995ed599860851113bfdae05',1,'fbgemm_gpu']]],
+  ['float1_5fmax_6',['float1_max',['../namespacefbgemm__gpu.html#a245cd4874d44db0533c14f1e5da13b0d',1,'fbgemm_gpu']]],
+  ['float1_5fmin_7',['float1_min',['../namespacefbgemm__gpu.html#a3ec9af370f9f9997a31175d653701b82',1,'fbgemm_gpu']]],
+  ['float2_5fmax_8',['float2_max',['../namespacefbgemm__gpu.html#a75186b0bdaba58d01566eec48d2f6602',1,'fbgemm_gpu']]],
+  ['float2_5fmin_9',['float2_min',['../namespacefbgemm__gpu.html#aa0397156c968ae38da1e433bfd50d3a3',1,'fbgemm_gpu']]],
+  ['float4_5fmax_10',['float4_max',['../namespacefbgemm__gpu.html#a7aaeb2b2ad68d85c51fb2b8697c70cc4',1,'fbgemm_gpu']]],
+  ['float4_5fmin_11',['float4_min',['../namespacefbgemm__gpu.html#adf07e886eabd113338425ed288c06a7b',1,'fbgemm_gpu']]],
+  ['float8_5fmax_12',['float8_max',['../namespacefbgemm__gpu.html#aa292f064d1126228ac0d10457722616c',1,'fbgemm_gpu']]],
+  ['float8_5fmin_13',['float8_min',['../namespacefbgemm__gpu.html#abca50cf5035e82d7992586eac7b744cf',1,'fbgemm_gpu']]],
+  ['float_5for_5fhalf_5fto_5ffused8bitrowwise_5fcpu_14',['float_or_half_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#ga06b7d2bf3fadaa9869555a64a6752ef7',1,'fbgemm_gpu']]],
+  ['float_5for_5fhalf_5fto_5ffusednbitrowwise_5fcpu_15',['float_or_half_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#ae983a889f16302029fcc4e5fcd5ce34f',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffp8rowwise_5fcpu_16',['float_to_FP8rowwise_cpu',['../group__quantize-data-cpu.html#gad540dd7f8ad7601b3d9591114e4ef718',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffused8bitrowwise_5fcpu_17',['float_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#gacf598456fd7aced63b96e8a725f4c418',1,'fbgemm_gpu']]],
+  ['float_5fto_5ffusednbitrowwise_5fcpu_18',['float_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a9330d767d66b257d1ffa28c67775b38e',1,'fbgemm_gpu']]],
+  ['float_5fto_5fhfp8_19',['float_to_hfp8',['../namespacefbgemm__gpu.html#a9710845f2dffae8b40b17d49c169976b',1,'fbgemm_gpu']]],
+  ['float_5fto_5fsto_5fhalf_5fassemblefloat_20',['float_to_sto_half_assemblefloat',['../verify__fp16__stochastic__benchmark_8cu.html#afb0f683c8db4e3b5d5fd504735c60b25',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fbitcarry_21',['float_to_sto_half_bitcarry',['../verify__fp16__stochastic__benchmark_8cu.html#a0fa16f5c4aa1d84c03f25daeb10e9422',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fdirect_22',['float_to_sto_half_direct',['../verify__fp16__stochastic__benchmark_8cu.html#af0a4d95d246fb468f1b26eace73794f3',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['float_5fto_5fsto_5fhalf_5fshortrand_23',['float_to_sto_half_shortrand',['../verify__fp16__stochastic__benchmark_8cu.html#aecab575916373f334a644238b6e02cf2',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['floattobfloat16quantized_5fref_24',['FloatToBFloat16Quantized_ref',['../namespacefbgemm__gpu.html#a46f430eb3d28bcd3fed6fbc61dec3bda',1,'fbgemm_gpu']]],
+  ['floattofp8quantized_5fref_25',['FloatToFP8Quantized_ref',['../group__quantize-data-cpu.html#gad14f49d191c7960681206b7103d781c4',1,'fbgemm_gpu']]],
+  ['floattofp8rowwisequantized_5fmeta_26',['FloatToFP8RowwiseQuantized_meta',['../namespacefbgemm__gpu.html#a5a525ef518134e136f23ab964d45dc23',1,'fbgemm_gpu']]],
+  ['flush_27',['flush',['../classssd_1_1_embedding_rocks_d_b.html#adac116554b543b7c4228c018a85882f5',1,'ssd::EmbeddingRocksDB']]],
+  ['flush_5fcache_28',['flush_cache',['../verify__fp16__stochastic__benchmark_8cu.html#a65d8faf79602cb52dbf1c3dc90db0cbd',1,'flush_cache(std::vector&lt; char &gt; flush, char *d_flush, char *d_flush2, int cache_size, bool do_write=false):&#160;verify_fp16_stochastic_benchmark.cu'],['../bench__utils_8cuh.html#a7fcbe2b8cc9b7676bb24b328fd41dc3a',1,'flush_cache(int cache_size_mb=40, bool do_write=false):&#160;bench_utils.cuh']]],
+  ['flush_5fgpu_29',['flush_gpu',['../verify__fp16__stochastic__benchmark_8cu.html#ab211bd95de3d67a08c95c5d7f070dfcb',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['flush_5fif_5fnecessary_30',['flush_if_necessary',['../classssd_1_1_embedding_rocks_d_b.html#a5e5bb9c575c52445a77bd0c39afc50bb',1,'ssd::EmbeddingRocksDB']]],
+  ['fma_31',['fma',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ad5c1e8194ecc27d73fb5477bc6795df8',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af82504393e0e09a157a40980598f626b',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad3b821b9b1862e7970a798dcc105dce8',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::fma()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d',1,'fbgemm_gpu::Vec4AccT::fma(const float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c',1,'fbgemm_gpu::Vec4AccT::fma(const float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663',1,'fbgemm_gpu::Vec4AccT::fma(const uint8_t *ptr, const float weight)'],['../embedding__forward__split__kernel__v2__template_8cu.html#a2a539cccb1f62bb145cef234b6608c7f',1,'fma():&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['fma_5f_32',['fma_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; float &gt;::fma_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5914148b281516a23c9786a11d6675ad',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::fma_(const Vec4T&lt; at::Half &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::fma_(const Vec4T&lt; float &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5914148b281516a23c9786a11d6675ad',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::fma_(const Vec4T&lt; at::Half &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af7ca249b197579ed0c1e65179d406b92',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::fma_(const Vec4T&lt; float &gt; &amp;a, const float b)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a935586b35f2e7d90ec234784a8a5d2b8',1,'fbgemm_gpu::Vec4T&lt; double &gt;::fma_()'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42',1,'fbgemm_gpu::Vec4AccT::fma_(const float *vals, const float weight)'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42',1,'fbgemm_gpu::Vec4AccT::fma_(const half *vals, const float weight)']]],
+  ['for_33',['for',['../namespacefbgemm__gpu.html#af2287d510f303567f2d28d743aa716b6',1,'fbgemm_gpu']]],
+  ['forward_34',['forward',['../classfbgemm__gpu_1_1_permute_pooled_embs_function.html#a278e4d6a68c0e694370831a0d04a2918',1,'fbgemm_gpu::PermutePooledEmbsFunction::forward()'],['../classfbgemm__gpu_1_1_permute_pooled_embs_function_split.html#a83e4292464a5708945ca80a1f2171a27',1,'fbgemm_gpu::PermutePooledEmbsFunctionSplit::forward()']]],
+  ['fp8quantizedtofloat_5fref_35',['FP8QuantizedToFloat_ref',['../group__quantize-data-cpu.html#ga4c49e527f364bfa224ed34f4fe9f13e7',1,'fbgemm_gpu']]],
+  ['fp8rowwise_5fto_5ffloat_5fcpu_36',['FP8rowwise_to_float_cpu',['../group__quantize-data-cpu.html#ga1d3b2f7c37e8755516ff8a4c504017e1',1,'fbgemm_gpu']]],
+  ['fp8rowwise_5fto_5ffloat_5fmeta_37',['FP8rowwise_to_float_meta',['../namespacefbgemm__gpu.html#ae7fdacc8f9e0ec9e1ede8102876ab537',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5ffloat_5fcpu_38',['fused8bitrowwise_to_float_cpu',['../group__quantize-data-cpu.html#gab86a824fed15fab1c318359d069a5180',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5ffloat_5for_5fhalf_5fcpu_39',['fused8bitrowwise_to_float_or_half_cpu',['../group__quantize-data-cpu.html#gad219617d0aa308f97fad8dfc6af20213',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5fhalf_5fcpu_40',['fused8bitrowwise_to_half_cpu',['../group__quantize-data-cpu.html#ga9284d774f5d4087da98453e96e64d00a',1,'fbgemm_gpu']]],
+  ['fused8bitrowwise_5fto_5fhalf_5fcpu_5fout_41',['fused8bitrowwise_to_half_cpu_out',['../namespacefbgemm__gpu.html#a389ed2b83ea0f408fe19fbb46770c610',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5ffloat_5fcpu_42',['fusednbitrowwise_to_float_cpu',['../group__quantize-data-cpu.html#ga61c494baf4e410652ed897534d14aa29',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5ffloat_5for_5fhalf_5fcpu_43',['fusednbitrowwise_to_float_or_half_cpu',['../group__quantize-data-cpu.html#ga5bd66d69876ef2493a6ebb4346c31bb9',1,'fbgemm_gpu']]],
+  ['fusednbitrowwise_5fto_5fhalf_5fcpu_44',['fusednbitrowwise_to_half_cpu',['../group__quantize-data-cpu.html#ga1c32bf52a02928dbc573b4ac67065788',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_7.js b/search/functions_7.js
index cbff7a2c9..09ae2f220 100644
--- a/search/functions_7.js
+++ b/search/functions_7.js
@@ -1,14 +1,33 @@
 var searchData=
 [
-  ['lfu_5fcache_5fpopulate_5fbyte_5fcuda_0',['lfu_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu'],['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu']]],
-  ['lfu_5fcache_5fpopulate_5fcuda_1',['lfu_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu'],['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu']]],
-  ['linearize_5fcache_5findices_5fcuda_2',['linearize_cache_indices_cuda',['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor indices, at::Tensor offsets):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(Tensor cache_hash_size_cumsum, Tensor indices, Tensor offsets):&#160;linearize_cache_indices.cu']]],
-  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcuda_3',['linearize_cache_indices_from_row_idx_cuda',['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor update_table_indices, at::Tensor update_row_indices):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(Tensor cache_hash_size_cumsum, Tensor update_table_indices, Tensor update_row_indices):&#160;linearize_cache_indices.cu']]],
-  ['lru_5fcache_5ffind_5funcached_5fcuda_4',['lru_cache_find_uncached_cuda',['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(Tensor unique_indices, Tensor unique_indices_length, int64_t max_indices, Tensor lxu_cache_state, int64_t time_stamp, Tensor lru_state, bool gather_cache_stats, Tensor uvm_cache_stats, bool lock_cache_line, Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu'],['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(at::Tensor unique_indices, at::Tensor unique_indices_length, int64_t max_indices, at::Tensor lxu_cache_state, int64_t time_stamp, at::Tensor lru_state, bool gather_cache_stats, at::Tensor uvm_cache_stats, bool lock_cache_line, at::Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu']]],
-  ['lru_5fcache_5fpopulate_5fbyte_5fcuda_5',['lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lru_5fcache_5fpopulate_5fcuda_6',['lru_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lxu_5fcache_5fflush_5fcuda_7',['lxu_cache_flush_cuda',['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(at::Tensor uvm_weights, at::Tensor cache_hash_size_cumsum, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(Tensor uvm_weights, Tensor cache_hash_size_cumsum, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor lxu_cache_state, Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu']]],
-  ['lxu_5fcache_5flocations_5fupdate_5fcuda_8',['lxu_cache_locations_update_cuda',['../group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603',1,'split_embeddings_cache_cuda.cuh']]],
-  ['lxu_5fcache_5flocking_5fcounter_5fdecrement_5fcuda_9',['lxu_cache_locking_counter_decrement_cuda',['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu']]],
-  ['lxu_5fcache_5flookup_5fcuda_10',['lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f',1,'split_embeddings_cache_cuda.cuh']]]
+  ['gen_5f8bit_5frandom_0',['gen_8bit_random',['../verify__fp16__stochastic__benchmark_8cu.html#aa292d49c7c13666d79ff4c646b5284f0',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['gen_5fdata_1',['gen_data',['../verify__fp16__stochastic__benchmark_8cu.html#ab5c51c16cea74c9decd6a2c957b515d9',1,'verify_fp16_stochastic_benchmark.cu']]],
+  ['generate_5flxu_5fcache_5flocations_2',['generate_lxu_cache_locations',['../uvm__cache__miss__emulate__test_8cpp.html#ad12ee38ec43f8659ee8ce4f63f3857f4',1,'uvm_cache_miss_emulate_test.cpp']]],
+  ['generate_5frandom_5ftable_3',['generate_random_table',['../bench__utils_8cuh.html#a0899793cc86846edfa6ccefb7905f55c',1,'bench_utils.cuh']]],
+  ['generate_5fvbe_5fmetadata_4',['generate_vbe_metadata',['../split__embeddings__utils_8cuh.html#ae0dcbedd529d5873ad0cac75397cb1f8',1,'generate_vbe_metadata(const at::Tensor &amp;B_offsets, const at::Tensor &amp;B_offsets_rank_per_feature, const at::Tensor &amp;output_offsets_feature_rank, const at::Tensor &amp;D_offsets, const int64_t D, const bool nobag, const int64_t max_B_feature_rank, const int64_t info_B_num_bits, const int64_t total_B):&#160;generate_vbe_metadata.cu'],['../generate__vbe__metadata_8cu.html#a9c89bc26edc2d2f4014204d89bd846eb',1,'generate_vbe_metadata(const Tensor &amp;B_offsets, const Tensor &amp;B_offsets_rank_per_feature, const Tensor &amp;output_offsets_feature_rank, const Tensor &amp;D_offsets, const int64_t D, const bool nobag, const int64_t max_B_feature_rank, const int64_t info_B_num_bits, const int64_t total_B):&#160;generate_vbe_metadata.cu']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_5',['generic_histogram_binning_calibration_by_feature_cpu',['../group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e',1,'fbgemm_gpu']]],
+  ['generic_5fhistogram_5fbinning_5fcalibration_5fby_5ffeature_5fcuda_6',['generic_histogram_binning_calibration_by_feature_cuda',['../namespacefbgemm__gpu.html#af9209d9d3ea127b5941dcab75bbfd39c',1,'fbgemm_gpu']]],
+  ['genericpackedtensoraccessor_7',['GenericPackedTensorAccessor',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a05cb3acde0a408e40526aad85584b274',1,'fbgemm_gpu::GenericPackedTensorAccessor::GenericPackedTensorAccessor(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#aa8ff94c7184e151415673957258747e2',1,'fbgemm_gpu::GenericPackedTensorAccessor::GenericPackedTensorAccessor(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a05cb3acde0a408e40526aad85584b274',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::GenericPackedTensorAccessor(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#aa8ff94c7184e151415673957258747e2',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::GenericPackedTensorAccessor(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)']]],
+  ['genericpackedtensoraccessorbase_8',['GenericPackedTensorAccessorBase',['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ad3b41b3123d1d8bfc0e530b2323dde07',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::GenericPackedTensorAccessorBase(PtrType data, const index_t *const sizes, const index_t *const strides, const char *const ptr_name, const char *const func_name)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#aab339f541ab3ce6195cabda68f736598',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::GenericPackedTensorAccessorBase(PtrType data, const source_index_t *const sizes, const source_index_t *const strides, const char *const ptr_name, const char *const func_name)']]],
+  ['get_9',['get',['../classssd_1_1_embedding_rocks_d_b.html#a9a5671e5de645f247452456ffdfa81a9',1,'ssd::EmbeddingRocksDB']]],
+  ['get_5fcuda_10',['get_cuda',['../classssd_1_1_embedding_rocks_d_b.html#ac8082829ce873543f6388ddbd16362e8',1,'ssd::EmbeddingRocksDB']]],
+  ['get_5fd_5fbytes_11',['get_D_bytes',['../embedding__inplace__update__test_8cpp.html#a602d9bde988d40aaa1d846c76f8d87c7',1,'embedding_inplace_update_test.cpp']]],
+  ['get_5fdevice_5findex_5ffrom_5ftensor_12',['get_device_index_from_tensor',['../sparse__ops__utils_8h.html#a672c3da6666124b2950b2eef43587bc6',1,'get_device_index_from_tensor(const at::Tensor &amp;ten):&#160;sparse_ops_utils.h'],['../sparse__ops__utils_8h.html#af97638412af3aea185ac327ebe398542',1,'get_device_index_from_tensor(const c10::optional&lt; at::Tensor &gt; &amp;ten):&#160;sparse_ops_utils.h']]],
+  ['get_5fgroup_5findex_5fselect_5fcols_5fper_5fwarp_13',['get_group_index_select_cols_per_warp',['../namespacefbgemm__gpu.html#a4296f0fdcb9a3dcfdd67549340e8f38c',1,'fbgemm_gpu']]],
+  ['get_5finfos_5fmetadata_14',['get_infos_metadata',['../split__embeddings__utils_8cuh.html#a0994f8d37247e9754d069f16ee195c01',1,'get_infos_metadata(at::Tensor unused, int64_t B, int64_t T):&#160;get_infos_metadata.cu'],['../get__infos__metadata_8cu.html#a487bdb340f5c93165158a37aaf156fe9',1,'get_infos_metadata(Tensor unused, int64_t B, int64_t T):&#160;get_infos_metadata.cu']]],
+  ['get_5fnext_5fbag_5fboundary_5fand_5fl_15',['get_next_bag_boundary_and_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a7cc9e1627beb86ecc866da06957e0fff',1,'get_next_bag_boundary_and_L(const uint32_t bag_boundary, int32_t *const next_boundary, uint32_t *const L):&#160;embedding_forward_split_kernel_v2_template.cu']]],
+  ['get_5fnvlink_5fmatrix_16',['get_nvlink_matrix',['../namespacefbgemm__gpu.html#ae554e4e9d8789449846323c52f840fe8',1,'fbgemm_gpu']]],
+  ['get_5funique_5findices_5fcuda_17',['get_unique_indices_cuda',['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(at::Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f',1,'get_unique_indices_cuda(Tensor linear_indices, int64_t max_indices, bool compute_count):&#160;linearize_cache_indices.cu']]],
+  ['get_5fvalid_5fcpu_5ftensor_18',['get_valid_cpu_tensor',['../sparse__ops__utils__test_8cpp.html#a740d263ecb80b6e7cf28a86f561450b7',1,'sparse_ops_utils_test.cpp']]],
+  ['getpointer_19',['getPointer',['../structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html#ac04ebca5545952c6185a2693bc5d9fc9',1,'fbgemm_gpu::SharedMemory&lt; int64_t &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html#a3472f2fcb0b65202627a7a5d0b47ab8f',1,'fbgemm_gpu::SharedMemory&lt; int32_t &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html#a11507d418a31c798c09f74aa6569fb72',1,'fbgemm_gpu::SharedMemory&lt; float &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html#a53ef47c469305fb8b5427b2a0063db6f',1,'fbgemm_gpu::SharedMemory&lt; double &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html#aa277fc58794548c1d2619afa9cd0be9e',1,'fbgemm_gpu::SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;::getPointer()'],['../structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html#a79e2902e4ab8379789578754af90253f',1,'fbgemm_gpu::SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;::getPointer()']]],
+  ['getscalartype_20',['getScalarType',['../namespacefbgemm__gpu.html#ac7d6b4d86c0ce57c3af88ea03123fdb4',1,'fbgemm_gpu']]],
+  ['getsparsetype_21',['getSparseType',['../namespacefbgemm__gpu.html#a7dbc3a3bde83bfe7a18b720197f0f830',1,'fbgemm_gpu']]],
+  ['gpuatomicincrement_22',['gpuAtomicIncrement',['../embedding__backward__template__helpers_8cuh.html#aa054bfcfa5ed7f584d2811fe48a2f757',1,'embedding_backward_template_helpers.cuh']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_23',['group_index_select_dim0_gpu',['../namespacefbgemm__gpu.html#a33cd874aab109dc15436869064c3d689',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fbackward_5fmeta_24',['group_index_select_dim0_gpu_backward_meta',['../namespacefbgemm__gpu.html#a213539d8845a20efd90e93fed16f1090',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fimpl_25',['group_index_select_dim0_gpu_impl',['../namespacefbgemm__gpu.html#abda14dada6ae2b39b175ed52824dbfa5',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5fgpu_5fimpl_5fmeta_26',['group_index_select_dim0_gpu_impl_meta',['../namespacefbgemm__gpu.html#a8d89670eae5b860788cb14175f01ce7e',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fdim0_5funpack_27',['group_index_select_dim0_unpack',['../namespacefbgemm__gpu.html#ac4851777dc16c28c94a2cc9b58d3923c',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5for_5fadd_5fcuda_28',['group_index_select_or_add_cuda',['../namespacefbgemm__gpu.html#a394db33cacde2480607d48fe227274ef',1,'fbgemm_gpu']]],
+  ['gt_29',['gt',['../structfbgemm__gpu_1_1_comparator.html#a869e6734f5357dab7a63300629b414c8',1,'fbgemm_gpu::Comparator']]]
 ];
diff --git a/search/functions_8.js b/search/functions_8.js
index 9ca306e65..4c46567db 100644
--- a/search/functions_8.js
+++ b/search/functions_8.js
@@ -1,5 +1,15 @@
 var searchData=
 [
-  ['new_5fmanaged_5ftensor_0',['new_managed_tensor',['../group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3',1,'fbgemm_gpu']]],
-  ['new_5fvanilla_5fmanaged_5ftensor_1',['new_vanilla_managed_tensor',['../group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5',1,'fbgemm_gpu']]]
+  ['half_5fto_5ffused8bitrowwise_5fcpu_0',['half_to_fused8bitrowwise_cpu',['../group__quantize-data-cpu.html#gaa9daf4f3dc64238a5de8f82bbae656cf',1,'fbgemm_gpu']]],
+  ['half_5fto_5ffusednbitrowwise_5fcpu_1',['half_to_fusednbitrowwise_cpu',['../namespacefbgemm__gpu.html#a545dc5567b0a08c31f65e2fc7ae21749',1,'fbgemm_gpu']]],
+  ['hfma2_2',['hfma2',['../namespacefbgemm__gpu.html#a3ff3d0d7b40d8f2909fa6b35d64d250d',1,'fbgemm_gpu']]],
+  ['hfp8_5fto_5ffloat_3',['hfp8_to_float',['../namespacefbgemm__gpu.html#a1f35a2d3a2ede2e58e7986f8c2c757ec',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fby_5ffeature_5fcpu_4',['histogram_binning_calibration_by_feature_cpu',['../namespacefbgemm__gpu.html#a499764d7156d294219e3ae2629ae229f',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fby_5ffeature_5fcuda_5',['histogram_binning_calibration_by_feature_cuda',['../namespacefbgemm__gpu.html#ac639ce2e71982d5d1da0a30c92858aa8',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fcpu_6',['histogram_binning_calibration_cpu',['../group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca',1,'fbgemm_gpu']]],
+  ['histogram_5fbinning_5fcalibration_5fcuda_7',['histogram_binning_calibration_cuda',['../namespacefbgemm__gpu.html#a1b19059704ba1911efbedf4adcbb0ee3',1,'fbgemm_gpu']]],
+  ['hmul_8',['hmul',['../namespacefbgemm__gpu.html#ab50e28187eb7fdf5b8cd74cd8150b025',1,'fbgemm_gpu']]],
+  ['hmul_5fshort2_9',['hmul_short2',['../namespacefbgemm__gpu.html#a257181e3db25da8e4d1b4ef73976271d',1,'fbgemm_gpu']]],
+  ['host_5flxu_5fcache_5fslot_10',['host_lxu_cache_slot',['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61',1,'host_lxu_cache_slot(int64_t h_in, int64_t C):&#160;lxu_cache.cu']]],
+  ['hostasynchronousthreadpoolexecutor_11',['hostAsynchronousThreadPoolExecutor',['../namespacessd.html#ac14b5cc833767dd1941b5c2de7153299',1,'ssd']]]
 ];
diff --git a/search/functions_9.js b/search/functions_9.js
index d48573eb8..ff754bff3 100644
--- a/search/functions_9.js
+++ b/search/functions_9.js
@@ -1,10 +1,27 @@
 var searchData=
 [
-  ['uvm_5fcuda_5fmem_5fadvise_0',['uvm_cuda_mem_advise',['../group__cumem-utils.html#ga8a7d93d58bcc9700c3054639973e25b6',1,'fbgemm_gpu']]],
-  ['uvm_5fcuda_5fmem_5fprefetch_5fasync_1',['uvm_cuda_mem_prefetch_async',['../group__cumem-utils.html#ga07e32d271464bafc50cc100cb52ddb85',1,'fbgemm_gpu']]],
-  ['uvm_5fmem_5fadvice_5fdont_5ffork_2',['uvm_mem_advice_dont_fork',['../group__cumem-utils.html#ga723bf5f1a0ca1c7a77e76054d3332a6e',1,'fbgemm_gpu']]],
-  ['uvm_5fstorage_3',['uvm_storage',['../group__cumem-utils.html#ga6e119375c731f9e33f4cd81a1f2205e2',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fcpu_4',['uvm_to_cpu',['../group__cumem-utils.html#ga6d4781dfa6a77b895140836f6e6d523b',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fcpu_5fclone_5',['uvm_to_cpu_clone',['../group__cumem-utils.html#ga98ea4dd0481cc3839cf21e55e003e7af',1,'fbgemm_gpu']]],
-  ['uvm_5fto_5fdevice_6',['uvm_to_device',['../group__cumem-utils.html#gaad51bd52cc92230c0e91c5d4f61511c2',1,'fbgemm_gpu']]]
+  ['if_0',['if',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4',1,'if(t &gt;=T):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a37c3fe73e60868097d45b151e9c4a430',1,'if(is_zero_total_L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a49e7c05f68f0175f3c44c6b1c12c5117',1,'if(is_small_L &amp;&amp;table_warp_id &gt;=num_warps_for_small_L *8):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1958ec7365ff8575f7973e15353c0121',1,'if(threadIdx.x==0):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a509435224d0201170dbceeef2d47698f',1,'if(table_warp_id &gt;=num_warps_per_row *(is_small_L ? num_warps_for_small_L :B)):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a4ab8250d245b6612c02d934b63fdcd52',1,'if(is_small_L):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec',1,'if(L&lt;=1):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af6822b01edff1e16c53f21b0c6142ffd',1,'if(load_D - load_d&lt; kWarpSize):&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a618af795eb1829b78b342e084130e1f4',1,'if(t &gt;=T):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a37c3fe73e60868097d45b151e9c4a430',1,'if(is_zero_total_L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a49e7c05f68f0175f3c44c6b1c12c5117',1,'if(is_small_L &amp;&amp;table_warp_id &gt;=num_warps_for_small_L *8):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1958ec7365ff8575f7973e15353c0121',1,'if(threadIdx.x==0):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a509435224d0201170dbceeef2d47698f',1,'if(table_warp_id &gt;=num_warps_per_row *(is_small_L ? num_warps_for_small_L :B)):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a4ab8250d245b6612c02d934b63fdcd52',1,'if(is_small_L):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aaa19ed116a2acf1b1ef0527b77b3d4ec',1,'if(L&lt;=1):&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../bench__utils_8cuh.html#aa3487d3e764e516ac71de417077959a6',1,'if(do_write *val):&#160;bench_utils.cuh'],['../namespacefbgemm__gpu.html#a29ef435892df0dc6cd3fa9769486e659',1,'fbgemm_gpu::if(index &gt;=num_logits)'],['../namespacefbgemm__gpu.html#a32dace4feb1fa305053fd440163ba422',1,'fbgemm_gpu::if(curr_bin_num_examples &gt; bin_ctr_in_use_after)'],['../namespacefbgemm__gpu.html#a4b4f7604af9accc2a43a8e060b6145e7',1,'fbgemm_gpu::if(index &gt;=num_lengths - 1)'],['../namespacefbgemm__gpu.html#ac2276128422f0c744cc68659b731d53a',1,'fbgemm_gpu::if(next_offset==curr_offset+1)'],['../namespacefbgemm__gpu.html#a1d72e092775be40f6a57865b410d55e9',1,'fbgemm_gpu::if(list_id &gt;=num_lists)'],['../namespacefbgemm__gpu.html#aa41e0708c4b465d4a89e0c1de6a60dd1',1,'fbgemm_gpu::if(per_sample_weights_addrs)'],['../namespacefbgemm__gpu.html#a6080a87e4588877fbbdd8a03d16d927d',1,'fbgemm_gpu::if(b &gt;=B)'],['../namespacefbgemm__gpu.html#a9e204163946d36c19beef5443a1b71b6',1,'fbgemm_gpu::if(n &gt;=N)'],['../namespacefbgemm__gpu.html#aa6453091b8359fcc2da599396bb27f52',1,'fbgemm_gpu::if(run_id &gt;=sorted_linear_indices_run.size(0))'],['../namespacefbgemm__gpu.html#ad0904756703f278e8c03d0be1918211b',1,'fbgemm_gpu::if(run_id &gt;=sorted_linear_indices_num_runs[0])'],['../namespacefbgemm__gpu.html#aaf49df4f26b7eff1308265a096c0c768',1,'fbgemm_gpu::if(SL==0)'],['../namespacefbgemm__gpu.html#a426625b7d5c06c4059e34784c1fdd74f',1,'fbgemm_gpu::if(t &gt;=T||b &gt;=batch_size_per_feature[t])'],['../namespacefbgemm__gpu.html#ae198c10fa781aa859c0e8666fc10063b',1,'fbgemm_gpu::if(i &gt;=input_size)'],['../namespacefbgemm__gpu.html#a1958ec7365ff8575f7973e15353c0121',1,'fbgemm_gpu::if(threadIdx.x==0)']]],
+  ['inclusive_5fsum_5fscan_5fkernel_1',['inclusive_sum_scan_kernel',['../namespacefbgemm__gpu.html#ae86238f4ca864fb4ea41318ece747ab4',1,'fbgemm_gpu']]],
+  ['index_5fadd_2',['index_add',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_add()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_add()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_add()']]],
+  ['index_5fadd_5fwith_5funique_5findices_5fcuda_3',['index_add_with_unique_indices_cuda',['../namespacefbgemm__gpu.html#a80e08c6c5c1ebf2b34c6490eee0e8415',1,'fbgemm_gpu']]],
+  ['index_5ffma_4',['index_fma',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_fma()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_fma()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ad71e777976812302bf4173ce00641b55',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_fma()']]],
+  ['index_5fselect_5fcuda_5',['index_select_cuda',['../namespacefbgemm__gpu.html#a543ba161110516ef84a9fbeb83c7af5c',1,'fbgemm_gpu']]],
+  ['index_5fselect_5fdim0_5fgpu_6',['index_select_dim0_gpu',['../namespacefbgemm__gpu.html#a170ff30798a3bcf42cc3f0669f938450',1,'fbgemm_gpu']]],
+  ['index_5fselect_5fscalar_5fcumsum_5fkernel_7',['index_select_scalar_cumsum_kernel',['../namespacefbgemm__gpu.html#aa762379def70fcfe1f15ff2a347af4a9',1,'fbgemm_gpu']]],
+  ['index_5fstore_8',['index_store',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_store(uint32_t idx, uint8_t *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_store(uint32_t idx, uint8_t *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a53ce8d22f3e5051594ff8799ede7167a',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, float4 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, float2 *ptr)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_store(uint32_t idx, uint8_t *ptr)']]],
+  ['index_5fweighted_5fstore_9',['index_weighted_store',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, float4 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, float2 *ptr, const float weight)'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::index_weighted_store(uint32_t idx, uint8_t *ptr, const float weight)']]],
+  ['initializer_10',['Initializer',['../classssd_1_1_initializer.html#af5e246dd12f1a6c4e06ab77a41bd0590',1,'ssd::Initializer']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5funweighted_5fcpu_11',['int_nbit_split_embedding_codegen_forward_unweighted_cpu',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a',1,'int_nbit_split_embedding_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#a718e1ac4e0fa56a96e666ee2d5a5c40a',1,'int_nbit_split_embedding_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5funweighted_5fcuda_12',['int_nbit_split_embedding_codegen_forward_unweighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#a9c3b5fb374c1ef95520bc4e30b66325e',1,'int_nbit_split_embedding_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, const int64_t total_D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t pooling_mode, const int64_t row_alignment, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a5a581a6131f9754699b4e5bb27b20ecb',1,'int_nbit_split_embedding_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5fweighted_5fcpu_13',['int_nbit_split_embedding_codegen_forward_weighted_cpu',['../gen__embedding__forward__quantized__weighted__codegen__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6',1,'int_nbit_split_embedding_codegen_forward_weighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_weighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#a5a1cc170a745f03faefac536cfcbf1e6',1,'int_nbit_split_embedding_codegen_forward_weighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_weighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5fforward_5fweighted_5fcuda_14',['int_nbit_split_embedding_codegen_forward_weighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#ae65cbb34f3d373fe3e12b7bb899c1b10',1,'int_nbit_split_embedding_codegen_forward_weighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, const int64_t total_D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t pooling_mode, const int64_t row_alignment, Tensor indice_weights, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a79655cba701e82021eefe7fe8cb72916',1,'int_nbit_split_embedding_codegen_forward_weighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, int64_t total_D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, Tensor indice_weights, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5flookup_5ffunction_15',['int_nbit_split_embedding_codegen_lookup_function',['../group__embedding-cuda.html#ga0749f1c6540189dd47b32a56858f82fb',1,'embedding_forward_quantized_host.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fcodegen_5flookup_5ffunction_5fcpu_16',['int_nbit_split_embedding_codegen_lookup_function_cpu',['../group__embedding-cpu.html#gac115303550aa9af7c170baef63bcdb00',1,'embedding_forward_quantized_host_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcpu_17',['int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu',['../gen__embedding__forward__quantized__unweighted__codegen__cpu_8cpp.html#ab6ae7551f9cd9d5cdb845240887aeaa1',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, const int64_t D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#af3d9ee6fd394ec0055de7f2c2acfba3d',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cpu(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, int64_t D, Tensor indices, Tensor offsets, int64_t pooling_mode, int64_t row_alignment, int64_t output_dtype, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_unweighted_codegen_cpu.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fnobag_5fcodegen_5fforward_5funweighted_5fcuda_18',['int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda',['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#a9b168b9b2d002f86f7f16211b83fced0',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, const int64_t D, const int64_t max_int2_D, const int64_t max_int4_D, const int64_t max_int8_D, const int64_t max_float16_D, const int64_t max_float32_D, Tensor indices, Tensor offsets, const int64_t row_alignment, const int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, const int64_t max_float8_D, const int64_t fp8_exponent_bits, const int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../embedding__forward__quantized__host_8cpp.html#a0545cdf708e09c0958f1538e7b4b29c9',1,'int_nbit_split_embedding_nobag_codegen_forward_unweighted_cuda(Tensor dev_weights, Tensor uvm_weights, Tensor weights_placements, Tensor weights_offsets, Tensor weights_tys, int64_t D, int64_t max_int2_D, int64_t max_int4_D, int64_t max_int8_D, int64_t max_float16_D, int64_t max_float32_D, Tensor indices, Tensor offsets, int64_t row_alignment, int64_t output_dtype, Tensor lxu_cache_weights, Tensor lxu_cache_locations, int64_t max_float8_D, int64_t fp8_exponent_bits, int64_t fp8_exponent_bias):&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_19',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function',['../group__embedding-cuda.html#gabbe880100f1036a979f3a8d8755447d0',1,'embedding_forward_quantized_host.cpp']]],
+  ['int_5fnbit_5fsplit_5fembedding_5fuvm_5fcaching_5fcodegen_5flookup_5ffunction_5fcpu_20',['int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu',['../group__embedding-cpu.html#gaf5c83f0c03200546398764261403749d',1,'embedding_forward_quantized_host_cpu.cpp']]],
+  ['invert_5fpermute_5fcpu_21',['invert_permute_cpu',['../namespacefbgemm__gpu.html#aa79c3b125ba955f02e8ee2e70b1bbd32',1,'fbgemm_gpu']]],
+  ['is_5faligned_22',['is_aligned',['../namespacefbgemm__gpu.html#ae24b9318a63a9532f426abc0b0e94819',1,'fbgemm_gpu']]],
+  ['is_5fuvm_5ftensor_23',['is_uvm_tensor',['../group__cumem-utils.html#gacba28ed334d071e79c1ead1792391e9d',1,'fbgemm_gpu']]]
 ];
diff --git a/search/functions_a.js b/search/functions_a.js
new file mode 100644
index 000000000..1f3551116
--- /dev/null
+++ b/search/functions_a.js
@@ -0,0 +1,70 @@
+var searchData=
+[
+  ['jagged_5f1d_5fto_5fdense_0',['jagged_1d_to_dense',['../group__jagged-tensor-ops-cpu.html#ga93b5edf03f38d8eaf9a0f1ece0bc1af7',1,'fbgemm_gpu']]],
+  ['jagged_5f1d_5fto_5fdense_5fmeta_1',['jagged_1d_to_dense_meta',['../namespacefbgemm__gpu.html#afdde1bd5a99cc5bcdfaf27b4c42cad7b',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_2',['jagged_2d_to_dense',['../group__jagged-tensor-ops-cpu.html#gaaa301b81a22a3d823ba5e65828093113',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fforward_5fcpu_3',['jagged_2d_to_dense_forward_cpu',['../namespacefbgemm__gpu.html#a70d2cdc82d96c9c4298b57133393a800',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fgpu_5fbackward_4',['jagged_2d_to_dense_gpu_backward',['../namespacefbgemm__gpu.html#a7c104248a9abcdcdac6bdcac571930a4',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fgpu_5fforward_5',['jagged_2d_to_dense_gpu_forward',['../namespacefbgemm__gpu.html#a56c28427858ea272148bdbfb9f373191',1,'fbgemm_gpu']]],
+  ['jagged_5f2d_5fto_5fdense_5fmeta_6',['jagged_2d_to_dense_meta',['../namespacefbgemm__gpu.html#a67b19e389f869540bd35510d4e8e7908',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_7',['jagged_dense_bmm',['../namespacefbgemm__gpu.html#aed181c3885f392fec8c38cdf10266d68',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_8',['jagged_dense_bmm_forward',['../namespacefbgemm__gpu.html#a3eec1622180be9b7a31891d5e9f2ba71',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_5fcuda_9',['jagged_dense_bmm_forward_cuda',['../namespacefbgemm__gpu.html#a4961acd2615018dff4fdf1390158f0a4',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fforward_5fmeta_10',['jagged_dense_bmm_forward_meta',['../namespacefbgemm__gpu.html#a022cdaaee01f619cf0cb7b29d80cbc65',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fbmm_5fkernel_11',['jagged_dense_bmm_kernel',['../namespacefbgemm__gpu.html#a6c32f4b4ccfdef9cf63d463cb235ec38',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_12',['jagged_dense_dense_elementwise_add_jagged_output',['../namespacefbgemm__gpu.html#a47e4d714a08316066470d979f97f1d81',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_13',['jagged_dense_dense_elementwise_add_jagged_output_forward',['../namespacefbgemm__gpu.html#a10611541bdce9c65bfe48a01474d1725',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fforward_5fmeta_14',['jagged_dense_dense_elementwise_add_jagged_output_forward_meta',['../namespacefbgemm__gpu.html#a56cac54ea3d7672c629010018ba59568',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fmeta_15',['jagged_dense_dense_elementwise_add_jagged_output_meta',['../namespacefbgemm__gpu.html#ab421ce372347f826b7e7ff9e35f26c93',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5f_16',['jagged_dense_dense_elementwise_jagged_output_',['../namespacefbgemm__gpu.html#a319b3f5f33bec0aff79f0ee990483f3d',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5fmatches_5fopt_17',['jagged_dense_dense_elementwise_jagged_output_matches_opt',['../namespacefbgemm__gpu.html#adfb04060c9eecdadcf59b3c15d5bca08',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5fdense_5felementwise_5fjagged_5foutput_5fopt_5f_18',['jagged_dense_dense_elementwise_jagged_output_opt_',['../namespacefbgemm__gpu.html#aac40d60c62b0d176a962cdad964e34f6',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_19',['jagged_dense_elementwise_add',['../group__jagged-tensor-ops-cpu.html#gaa797caaa08c70857433ae987d9cf30d7',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_20',['jagged_dense_elementwise_add_jagged_output',['../group__jagged-tensor-ops-cpu.html#ga1290f40c3ba39837dd009c3006353d7c',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fcuda_21',['jagged_dense_elementwise_add_jagged_output_cuda',['../group__jagged-tensor-ops-cuda.html#gad34ac20d2c9be5a6489c8e8befff7938',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fjagged_5foutput_5fmeta_22',['jagged_dense_elementwise_add_jagged_output_meta',['../namespacefbgemm__gpu.html#a16d84a11c2e32cb0064721354fb190b7',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fadd_5fmeta_23',['jagged_dense_elementwise_add_meta',['../namespacefbgemm__gpu.html#aff88b44d096bd7a039dca72a5855198c',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fjagged_5foutput_5f_24',['jagged_dense_elementwise_jagged_output_',['../namespacefbgemm__gpu.html#a124d128a82ffb0342ce597d0325060fb',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fjagged_5foutput_5fopt_5f_25',['jagged_dense_elementwise_jagged_output_opt_',['../namespacefbgemm__gpu.html#aded7d8ce8ffbcce568c498fb32a7d071',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_26',['jagged_dense_elementwise_mul',['../group__jagged-tensor-ops-cpu.html#ga5521ad46f5bab0d77c8bb036742f455d',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_27',['jagged_dense_elementwise_mul_backward',['../namespacefbgemm__gpu.html#a6de8f2f64f7d90ab1997df02470a9564',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fbackward_5fmeta_28',['jagged_dense_elementwise_mul_backward_meta',['../namespacefbgemm__gpu.html#abfbf6c239d283084ed1c68f18ea24af5',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_29',['jagged_dense_elementwise_mul_forward',['../namespacefbgemm__gpu.html#aaa297ab58f55125d7eb7b040cc4c254b',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fforward_5fmeta_30',['jagged_dense_elementwise_mul_forward_meta',['../namespacefbgemm__gpu.html#ac30cb8e7e035c24bf4f6ac15bf1b623a',1,'fbgemm_gpu']]],
+  ['jagged_5fdense_5felementwise_5fmul_5fmeta_31',['jagged_dense_elementwise_mul_meta',['../namespacefbgemm__gpu.html#aaeeacda7f3587bfe9bf2ecf376dd635e',1,'fbgemm_gpu']]],
+  ['jagged_5fhash_5fsize_5fcumsum_5fcuda_32',['jagged_hash_size_cumsum_cuda',['../namespacefbgemm__gpu.html#aabd8b530d0ac7e5cb96cf19c7eb517e9',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fcpu_33',['jagged_index_add_2d_forward_cpu',['../namespacefbgemm__gpu.html#af80524a7d454f6db1c478808e8a659a6',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fcuda_34',['jagged_index_add_2d_forward_cuda',['../namespacefbgemm__gpu.html#a53a6da74de342260dcb15c68e9bddfd6',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fforward_5fv2_5fimpl_35',['jagged_index_add_2d_forward_v2_impl',['../namespacefbgemm__gpu.html#a8e1ed94256304ab16b948117d5315ee2',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fadd_5f2d_5fkernel_36',['jagged_index_add_2d_kernel',['../namespacefbgemm__gpu.html#ab571c6d5519c86bddfe58835c8209a4c',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_37',['jagged_index_select_2d',['../namespacefbgemm__gpu.html#aca95193cb0cc3db7030f18cb59c6cc33',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fcpu_38',['jagged_index_select_2d_forward_cpu',['../namespacefbgemm__gpu.html#a71a54a14d90862afc8e5fe03e0c9ed8f',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fcuda_39',['jagged_index_select_2d_forward_cuda',['../namespacefbgemm__gpu.html#acb5a744fbd29c8a3a25621c2850686c1',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fforward_5fv2_5fimpl_40',['jagged_index_select_2d_forward_v2_impl',['../namespacefbgemm__gpu.html#acd9af0fd221ab3fc330ca9f278433a3f',1,'fbgemm_gpu']]],
+  ['jagged_5findex_5fselect_5f2d_5fkernel_41',['jagged_index_select_2d_kernel',['../namespacefbgemm__gpu.html#ab1228b502a424869c5a7353f9fe52316',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_42',['jagged_jagged_bmm',['../namespacefbgemm__gpu.html#ae94c97196a7c392695b64f0db906ff4c',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_43',['jagged_jagged_bmm_forward',['../namespacefbgemm__gpu.html#a5b01fcfb83764115f38eeab21c28a6a3',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_5fcuda_44',['jagged_jagged_bmm_forward_cuda',['../namespacefbgemm__gpu.html#a0793a1a7b328d1351b6036d0be6a9c3d',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fforward_5fmeta_45',['jagged_jagged_bmm_forward_meta',['../namespacefbgemm__gpu.html#a2722fce931f20d923aba071236be4c87',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5fbmm_5fkernel_46',['jagged_jagged_bmm_kernel',['../namespacefbgemm__gpu.html#a33c7044a13254607610928c6825738b1',1,'fbgemm_gpu']]],
+  ['jagged_5fjagged_5felementwise_5fdense_5foutput_5f_47',['jagged_jagged_elementwise_dense_output_',['../namespacefbgemm__gpu.html#a8fa5d329cfcc18c3304ba018919004ff',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_48',['jagged_slice',['../namespacefbgemm__gpu.html#ab17aab73b431292434fd0d642a538960',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_5fforward_5fcpu_49',['jagged_slice_forward_cpu',['../namespacefbgemm__gpu.html#a4e6521d00a6f81ad8ad7f7d38eef1aea',1,'fbgemm_gpu']]],
+  ['jagged_5fslice_5fforward_5fcpu_5fkernel_50',['jagged_slice_forward_cpu_kernel',['../namespacefbgemm__gpu.html#a284b652fdac146671fc324ac57d2ad5d',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_51',['jagged_softmax',['../namespacefbgemm__gpu.html#a069ed261b53e7051b85f3e572cad7f7e',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_52',['jagged_softmax_backward',['../namespacefbgemm__gpu.html#a7ba518434a034920e1092bf6d73879fd',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_5fcuda_53',['jagged_softmax_backward_cuda',['../namespacefbgemm__gpu.html#a305d9969e73060e49580aab1456ceb35',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_5fkernel_54',['jagged_softmax_backward_kernel',['../namespacefbgemm__gpu.html#a7101ddaed8357d824a9eeeaff67e5c4c',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fbackward_5fmeta_55',['jagged_softmax_backward_meta',['../namespacefbgemm__gpu.html#aad25e4e44afa7169c17e48d726ee0477',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_56',['jagged_softmax_forward',['../namespacefbgemm__gpu.html#a023a8d9db48d27efcd2e77ede6366f5d',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_5fcuda_57',['jagged_softmax_forward_cuda',['../namespacefbgemm__gpu.html#ab117510dd56fd42f3d774d22633b107f',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fforward_5fmeta_58',['jagged_softmax_forward_meta',['../namespacefbgemm__gpu.html#ac14e78d89697f34bcaa7c0a725c8a04a',1,'fbgemm_gpu']]],
+  ['jagged_5fsoftmax_5fkernel_59',['jagged_softmax_kernel',['../namespacefbgemm__gpu.html#a20e3d96daba045e321717b025f4124cc',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_60',['jagged_to_padded_dense',['../group__jagged-tensor-ops-cpu.html#ga6d19e2c055144e4fe59b06999be34670',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_61',['jagged_to_padded_dense_backward',['../namespacefbgemm__gpu.html#a861454c4383e6a0869a6c007fc498eed',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fbackward_5fmeta_62',['jagged_to_padded_dense_backward_meta',['../namespacefbgemm__gpu.html#a8663dcc9727a468507eb75a849ae5820',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_63',['jagged_to_padded_dense_forward',['../group__jagged-tensor-ops-cuda.html#gaffad7e38f6faf5f8365784fbf82a26f5',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fforward_5fmeta_64',['jagged_to_padded_dense_forward_meta',['../namespacefbgemm__gpu.html#a4fc6df6df430f9f9a20d7fe9d88dd009',1,'fbgemm_gpu']]],
+  ['jagged_5fto_5fpadded_5fdense_5fmeta_65',['jagged_to_padded_dense_meta',['../namespacefbgemm__gpu.html#ae45c299345273bf31be20e4893f58c28',1,'fbgemm_gpu']]],
+  ['jagged_5funique_5findices_5fcuda_66',['jagged_unique_indices_cuda',['../namespacefbgemm__gpu.html#a006273b56cd5a2efd001ad71d801a551',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_b.js b/search/functions_b.js
new file mode 100644
index 000000000..fca17ecac
--- /dev/null
+++ b/search/functions_b.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['keyed_5fjagged_5findex_5fadd_5fdim1_5fkernel_0',['keyed_jagged_index_add_dim1_kernel',['../namespacefbgemm__gpu.html#a7d13c6946f45ae31d20aaecbd2316fec',1,'fbgemm_gpu']]],
+  ['keyed_5fjagged_5findex_5fselect_5fdim1_5fkernel_1',['keyed_jagged_index_select_dim1_kernel',['../namespacefbgemm__gpu.html#a0a518ef8f85868c32ac832576f8504d9',1,'fbgemm_gpu']]],
+  ['keyed_5fjagged_5findex_5fselect_5fdim_5f1_5fgpu_2',['keyed_jagged_index_select_dim_1_gpu',['../namespacefbgemm__gpu.html#a50a64d97045199097d3ff83edaf56a1a',1,'fbgemm_gpu']]],
+  ['kwarpsize_3',['kWarpSize',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5cb5e51b17eeacd9818bc06b9eb55ddd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5bf3f753d62805ba481f4394edfa3158',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6e814e4e84507c4c3d932abf55dc8b86',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a1df9e821214c938534c26d9ad87c1cff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6c1937cacb2c930220dfb75c2ad2fdb4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a375f1380c0a43779a6521f855f7c90ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#ad74db204c21ce57463de29efd2b51c22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a5f6257aba106ad398e4b4a75471a8642',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ad8b31de2b716f254b2d55b709a332afa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a4c8628eff4245612b72787529fa2588f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#ae0f0975698d817274d5b21d1dd31285c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a2166d1c956baff37ca5f2aa75dd5d29e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const at::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; grad_offsets, const bool permute_output_dim_0_1):&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a3bf7d511b93dad425030c52ff0b35378',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a33f0706d826f38b6f36f4657f5a4bbbd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ae5ffff834bcf0d76a398a76c06a9d01b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ab824e6081e4272e9f56dd57114a11d1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a0157d8084d739723c62bc11e05187901',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; at::Half, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a5732b42f4e3be21733885ce73871b37a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; total_L_offsets, const int32_t fixed_L_per_warp, const bool permute_output_dim_0_1, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; output):&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a390d0e97c72c325e3497aeaa3226d527',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a64b75e41b7d50f479b37a8c9cf0c1bcd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a446498d5289ca85dd627faffea758f45',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#ad471b8ae6cce12a41ac160db1243f289',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#ae31ad4c12fc469e5ea516f04f158b98b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a445aa60d61ffd3755914ffcf55c1a6fa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a91f7f08a7ae090f72ea7236ba0fb5c96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a447c3f2918447f50e234bb7c3e2b1532',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a03451f7ef0e82d0861c795948f00bf9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#ad19427e173ef6c061d7a98427d69a595',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a067846db797129cc6a85a87a6009c288',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#acab5c90a244916d389e9273df81384ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a8c2c7cc342e76ed32a9621fd6bc6753e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6da3d4d33386cf358b201f5a9a2602bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a59dab5f4ff3072665da93792aa3f85e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#ae39679f36fe6a0b7b8846c79f69f4bf9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a74aa12547ff3a9b9787bcdffe7b95e71',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5e2c26bd8a7744de11021a9356b59a74',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a98c8243c5834d18ba31ffd8f3a570480',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a9ace33692ea18b9bd6c92308133c4499',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ad9f02bfae155a2b4114e80ed9ef6390c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a225fbb17a5d73ae68945ddba0baf3960',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac93d19a97b3d9f1b1ae742787b03d5ba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a78f61ea01f92fc50b78d776edda5691c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f1fea77b7579d1cab96be89c027396a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a5ebb0d91afb08ea0721308c278b18b89',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a2f21c580a600ad4f25aa58bbcae83e5b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a042eb088419228e49b76f7923732ed0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#acac50d0765417aed0ba2275ef09e7363',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ab528e6c3e784b1648ebe89230f6f864c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad07738475ef95243e6a5d08e8e6096f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ae4bb5bd4f1fe9caf6f7a1d3107a479ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a28bf244596f3c3376a70af53e767ed7d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a0386dbc79ea0aaacffbe7cf8cba78167',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a88a5089ba98be8ad981c0d2fd5c74657',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#ac768cc0753ab5318bbe47835d4f9fa9d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a557bbce544c0a0b3dd4036ec01b6df55',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a802903738d859e74795111ec77fb0268',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a8d14751fd1f29be0069e1a35e0f921e4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a1773883a254e0ab07fb0313e41e997d8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a735bf953224cfed630501bf38342b07c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a608b71f09301faa6ce5838495c9e8de1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a5860a2f37abc179f0358170ee6403905',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a21576335b9047871158e90e2032e8912',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a04bf660a884cfa9ce91901a66fd99f75',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abf0dc6720193f4ab9a278a95c495572d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2f8395d5782bc2895b99dde1a0a5ca20',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a2bfd2c4264e14c4f64b737892c1f4f06',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate):&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a07612c8115947993a4f0659814bdb991',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a9ceb5776015ed4c35b0dabca7fa8f4c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#ae682ad60acd60875e5499ef3ba62ba8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#af09531afc63fe34068a117835f5276e2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3fd0b06c245d1deda1dfd409ef777dbc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a0b140fe99d998657ba70d37cb96981ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a188fb685cd69453ab94f992332f523a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a336a999e1b383c51b25841fa00f768d4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a745a7f66bb6899e5071ee55e90f23368',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#af9137cfc1d9e0421323b78bf589c34fc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a440eee4271eb5f61b204de4ec66054d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acde8c89a937e31cb98aa026b261cfe23',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ab8e910b2c682642ac61185d1b155c5eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ad1d9234d02b6be2ab2bdc5f4a8dc5701',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acce157d175e9e72545e8784647a38511',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a377694b1c0ce71b8d0c56077a904f7d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8d2430849bd51fc5ad283d1a300cabba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8ecc1609ac62272a2c0f5a1e1cddbed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ab903a35e3bd981f1436d46179b87ecb9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a4074249c4919e43d534eb0904fa4693b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ac2f871ccb0e37e363f7b979d923f944d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ad39229402610f8c9069ea8a7e1c6a0ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a01c0225eea92b7b0403572335b1abc61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a3490c2bf081c92095011640fb03961b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a3f1c2f2aebc7a13ddade48d2a2f0301c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a023ead14754421961a4b473a3b1bb81c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a5ff2b2e15a95a8d176f99a8eebddf45d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a97cc1b7bcf350b322be5238011334085',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af13fd6356fec61b096f429f666c4d50a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a8ae09f234561f1e415ef920bbf6eba22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a96ca79bd9787eab9dfe57a09f61590db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af8966c1a682b91a466caa300f057d2cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#aea22f0f456a89d61d1a066e7b363f59a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a78184f7b8b96c9fc9daa6d61c6bf8b32',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a933ef9f4d58e4ecad71988cd6f5ad537',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af15cb1c5b6cddd5d3678e3cee0a6cefe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a11b62696a1fcc6753a62e4b7b78987a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0cb98e4afaf555388869ebe3242fc7d0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a2bcc4982507c7169f085b06d8bda77eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac58c7e73b10a41dc9f49d4e477b20fb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac7cbe79ba3521a4bbd4c14a74fd6adff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0e895892d276833086475c0e7f1b7927',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a1078e271f687367cefee7d0e75efe3d6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#acdc78be52effcf8cc2c910b822c3ee7a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#af8601ce12308ef84b4899504296ae6ce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a8b3df46fe1527fa468b07f9b7629420e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a7fda08a8c83a3557857418ea43e4dea3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#aa0685df0fb0a672d3d2237bd536db1b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#ac806eae9eee01106ea55ef146007dfe8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a06567b685179fac57c60d07bfc5596f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a8c8e7afc35b5a54e69b3826c35adf2de',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a621cee00cffc059f6e5dac1dae6c870a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a9cf51444fe766e08d86ec3b884680083',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a1f4c065ae0c477c9055f201ff1d77eeb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2431e3a9f193cb26104acb7111bb16e7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#ac73727b32e66331f5cfe9705c2bcf9da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#ab17cf37109f61a98a1e67e278282d410',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a56eec79755c7e031dac93d7fee216fcb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a9e80797bba1bde61de4e23580a123045',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a2309228f9f01e4fcfd7620b415458f5a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a1edce0d6c349a03501ea2777a101af79',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a095215da51de608e36ba8292e72c72af',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#ab671eaaed996f9f41eca1f557abae645',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a508ae4c79692f2664971272e30d3fc2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a1ed3a6b528acb610a62f188de95ebc0d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a4fb277896c516d3421f917fbbbbc10e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, float unused):&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ac34e39eb121e260238cc9a54f2d13a85',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a761283af416d74a3f610cb64f134cbad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ab2bf567d2b9120f65832f9e8e227c3bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#af798849724e5b343ef0987b64245c41a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#af04ea470cdd8a07f331e1efbc90114d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#ae6c1506493e5d8b4539080b206713dce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a0beafd356bf1cfb6ea68ff7e1bd2992b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a356f3f696dd24ffa3fcf741fd8cd2ce7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a36b2d055ae9089bfecce1598d5ee5734',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a5765c206de6271ac6019a718fd7ad6b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ae0f60eb17c2973c16120ac880fa1405c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a33f0017811260350774433a6b81f85ea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a929b3395fb702cbf1354da769ca55637',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a19a7ecd9eeedc4239cf1b987d3f4d15f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#ab3795d6b83ee437c61880577c78b2273',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#afb2bcda34aa0401c61ef4fd5ebe0b090',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t info_B_num_bits, const uint32_t info_B_mask, float unused):&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a025db262738d28e0f6d0073da9eecc1c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#ad312b70230d4098d8ac2747559c7f26d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a0b27ae9a200a1ece5394819d34ccab40',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ac9b1b580c02b691e732330917b4346b9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a234aa0426b89c62486c8f88fdd7722e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#afa3433936e5b727b1211effc7414d937',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#aea8e820a7a4bc3fe64bb6c818542a3aa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ad64afc5ea3a238f14048b1d678f617be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ac8f9bf44e289b97fd4b68b3ac86e5fa2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a3cf034bfeabf17e2c02ef5eff0e39d27',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ae9bd7c9d24668aa08267f29bcc8d579b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#ac2f4c84a8e13733979d8c8eb160d8ab6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a9668523612cb73bdea52956fff1a645d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a36dbb2ed81d41998cd4ddd239f6e18ff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a47b1f486724dfb5ef0c59660725ba49e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af72ccb394ff0a9c8bad2415b26124ee8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af37b23a1376bb72a6936967e93403d29',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a839068bef278b0cf5184340361f2db61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#af3b0b53e46e934265545fef179bc4a42',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a3be6a3a67f391545b95c03cdfeabab49',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a9e740e6e3df02da3c05d0dfd940a2793',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#acff100b57110e4d629c786c3535bf208',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a2992f3c3797e58777a7f7d6aff063137',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a88eb41bb17cb58eaf37c6e5cc0ae1bfe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abab241cb0bbbdda5a3d240feff95de96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a837a847bd0e24c4c323f60f3cd49bb93',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#ad25cc23c713ce4d2ce9a057d23d66b8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aa8a6cd9058bac3b6775b6057a8b0beb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a28402ef2cf3a1b34fdadac6a6ef06adf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a33595ad9426cb537c6e4e9c2bb0d1cfc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a28fd1bfeb870e4192c831675880469bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ab570073ba2f2dc988643433eb9ee56e3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a2543bb59812617ba91ec36256ea579b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ae0bf41c3a1fa62e4aacaf4dd6e3ba1ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a60837a52bb429e86372390ab093b5c3f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6a6e51dcbe4f354b395c5ef3a8632e9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#afcd6a68c14971422bbcac044bc2e5fe7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a0e9aa9538f85f1a20881b99a619ff138',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a021fc973b5fc3d624856c3095ea0d8c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a1a126c0d3c9315985228744121d10f65',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#aba4fc1bf5159b001bdbeaed09bac28cf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a87b68faad6789ef38e5ee96bdf0adadb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abb70eda92401330f9c430e33657f5390',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#accc2086d06273c59409c74b598e17066',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a331c0180e8dc65d864006a18ae10f3e7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a1da0aa99bcd3a3a2ad540eaba284bd08',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a46d814dea7a25a249b9e0fc0c82023ed',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a19120fdc3ff0a026755d36ddb40ff43b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a1d111c3d803b0ed234aec8f5604bec87',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7f28593d442951ae04e27670c892fdc9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a80acf7650ec2712ea7d51f7d5156fc39',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a7643d87610f1fd256807566fcae51c36',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#ab9a28b117d8d2c802b31c3850cebf7ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a53612aafa2641dc1c70fc11355c354c5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float learning_rate, float eta, float momentum, float weight_decay):&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a459aacd66b48c479d5773c84d129086d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aab8efedfe2eecb8e722290e8670b57be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aef14d493a157796b5d5b3708471dd5f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a1495ee920385d2c17517f402e4f2f1d3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a13fd2498aed38e9bc488bba7aed3c70c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#ae1896638d5d062dd4fdb76ea25fa25ad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#aff46c2a59e01f53a86a7b0d79a618a13',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a0bf2b9756ea833bf245d6fd93a68bba2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a07fe51377b6ac8933fda5657824dfa00',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a0424cc55d1baf826ec4665dc699c0ee8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abe7a518fe77140a9f84658b9be73ca57',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a93379bd0b52108c09ce0c6012c1a0bc4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a9efa56f919a034ad1c2eb4339babfacd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#af1b7ece649e9d0dbeb4a372364cfbf54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a5be30952d02614260f81e9b29d17f767',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6c887e7cd209eff2be60616a0eb2ea9f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#aa6dac18027510aba99d797d8c340fa0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a1aa0bffadd8de61d9327613f1b0c3d8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a805ef69c6e5b5bbd4a5d70b053dc8940',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a67e2d754aeb8030c70dfdf94358cac76',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ab111a2635d39331e5dde581b2cf5ab40',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#ac42deea1306a7165392cc02c0c962381',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a216facff7aab2092d3300f52f73f441c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a9a65221171b1118ec811d883a600b7eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a2dcf33b730969fab9d8d9e13f5812500',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1628e1fb812ec5d70a2a3701145ae3dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a3af1e6fa25253eb084459b3d13ebf58a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a5731f2347a6fc9cfce399131b7535c72',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1916dad21c1174ed094bf7cb9990674f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abcac665cc8837bd07d64ee1f1d22c9bd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a1627d1331758cf0987f80b531597de96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#aa2f1fe9cdd926d486017e9c9e3ee401e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a58dd95b539386ce0756417ffa7e3c675',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a4ac5aa9e7a97b988f21d79f2c77e8a42',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6ad697b6cced262fbf9c5329af882295',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a946e1b9e34decc6ef732c17c06eaf67b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a99d2945d0e14c762a262971ad5cdddca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#ad3382f93d63430516e0fa4ee3dfcd35b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a88e9b91386946c328e4ea9cd1074af16',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a376fefbb04f4e4d081447881d6aa3ca7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; grad_dev_weights, const int32_t max_D, const int32_t info_B_num_bits, const uint32_t info_B_mask, int64_t total_hash_size, int64_t total_unique_indices):&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a11b57ed4691d1c773211ef5481a6dd02',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a0e70fccd2a1e2a9e2135f0b38f7fb8b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a2b831b47546fedc2c25d2ade8b88b756',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a189144e6ce32a982c752160cfb103ec8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#af70ed3aa3b3e9f4ef10054777ea73ab1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abb5bc6565be4b9b6cc47cb4ca0d02a12',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a458b855930bbc15ecb8cd6980db76490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a3911285f507951daf865d22e1dc2d7e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aaca84bf78edcf873560f46ba711426c4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aba8c5712b7a8fce9f51ee8108dcb79f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a1752a413ef2e5ee8694cbed313bd3c9b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#aa98ce75bc9f2d7c2e1cc4436470c150e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#ab520b5026f77d9694c578169268d8f2b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a1314b4ae40316edeea56f92f7e28410c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a94054b18dcd5508cb296f050eafaac8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abb6922c94e0bc8151481e453e7fbd2f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a3c116db6b09393487355778e5d0ba3e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a4f79732380b8f26101bbb5a5877b0d97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#aafa7d80ed4b830a47066853afca5adb8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#afe4fa4f0b7eca5152a57e65d0310bc97',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a65bd36be5843d363a2eb37a79abc423e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a0ecd7c3b11cae2bd14c04414fdf39d43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#aa277c49633d92fd3ea4687ea0f01803e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7898e52d82e5ed49f5b81644674cccf6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a54c18b3c9a1558b1f501088330c13c50',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a2f12331e96d80708241cc08cea4b1fcf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ab0ee6537f36eac8a7a5af1623b9034a1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a7268248be04d72669a01dec69dc41c6a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a97e63874df3289ce3294d46e2e016b05',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#ad8cd9718877e1b127bdbe2690289a634',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#af2cf38bc095adda2d396c87d8abcc41e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12157bf0f49e84150a01fe1696cd2517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ae901e5d211562a991d8626c0336b0d91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a384c7aad1eb1b9b6e688ece904ad37e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a12afc30313df2164ef2c299b47d3762f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a0c52e587496d1304d86d780ab48907bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a96d20178b145f86f646dd54cc65a4689',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#ab25d29756405f0c6cd77f9374cbc4eb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a4592aa63ba08715f737b78de44450545',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ae67b8281998dc6618d7137d6c900514d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ae4d004ac86d256e60d311e9968760ace',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a2f2f9af58b42f9000c6afc0ede01f437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ab41d9b72247799b42c181dc59e842a2f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a3e4660a5830af64e9d350bb97c1e3a33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#affb72e0053cfe9211f9e16b0cfadc0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#ad6e87f8f718d28dac18c176645cc0177',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#ae3f634c3e17354623fb175e7ef20d939',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#aed47ce83acf75979b426dc241ae12149',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a899e0ed06ca2d908cf92842a6c8145f1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#afe83f8be103b8fff8e2ef9d56910ff68',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a2aa1026f9d94c927bfdc7d12f23f8626',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a0f22910d204e8c3b3e5ff55c9480a2e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a670bd91b158c44cc933ee13f4083d850',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a8fcac5f4fe8809ed79e52dd0b6cd3b33',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum2_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum2_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum2_offsets, float learning_rate, float eps, float beta1, float beta2, float weight_decay, int64_t iter):&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a015143a1cf9641909ef5739492836ab9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#aac73098f12c44ace7bd0c6ed29d1acb5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#adde42935e2ebd0c4cbfb5a925c603d3c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ac9113b72a8883bfe52a840eaf6bf0bcc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a1a4b7c2d1fb4fe724a9ddcefe4a3ad96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a4d4d95ee827c360821c77e0f6a5b533c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#ad6b46d8dad6badf1a2e13000e0809359',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a69800c08002e6a964629da3691cfa699',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#ac0a2c283925ea0172a022b44ec4420ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6ec6ef39c438b48fc5ff99850376c2e2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a68d39c92f33a5fb23bf494df10381aa7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#aa9a73b585d5c585477687c3b42859fbf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a502058fc25fa19bb0cd2e7cfa440c82f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a157d6cc11ad0a2f4127709df3181d056',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#af6c8d616d0e8c2d6738c38fece880943',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#aa47b1b3531724ee008b8a88a913375d4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a0b393ddcfa07501c936c09103420a327',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac99cf2df0002f1359da1a71821a5d7a6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a16c1dd81db1a38927c5a39968b2a2047',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#adea97673f55b5d43fb1091e7cb082cae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac80ea89a8a915ac8a1a6eaee9bd3a921',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a4b2cdd16081fdd55ef997fcba11943b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a929c9944210d7078c0bcc89ae2ad2239',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a942425624762de23778b8ea3b8da1267',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a006b3b6fd358ff41f9dad5c39f2cb330',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a81cb91d9b5c6ba53ca66e62ad21265d6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ac028b85ab4d730883ee7b170a11039da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a73f35746d0a9bed1751b964c07d2c3b6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ae5efcbb0aa7b60c29535ac9c49bbb00a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a3d28eecf8be5cfcbcd71fef6322ef6df',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a0e96ba84ab91aea304a2e6ac78eb1fa2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a96833312f1cb3bd4067a854dc1a85d9c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a1ce149ce2e815f85f42f779e853b6384',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a5e2d57ad35649098aac904f8acec4d7b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#ac8d5805872473e761a71634add6ae7b8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a873c28f5a06ab6135240b18b23aa17d5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a86ab9a70fb4459793418ac95f6844494',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#aa1d6f03c27aea0bad56e3d38003ffda0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a0e3cae02bd4631c5b65507b91c500606',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a7929e1f87db6d3d72cae3804c1aafef0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a0d5f1eb18d7aaf74fabc0d63a215062e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#ae319b79d484f9cfb10ddf935cf3dce8c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a50b88aba0d96371aba370d9894857aff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a24d7b65f902789f50e1a0fdc3c72da0e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#aba27e610941b3c6a9520a14a567022dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a2922d0a81b0f1a4427fde265b05427bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a261934c69234b20a2f19650fa88e4cd0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a60c7d08b38c83f34ba87438440f950e8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ae3f8662de26a86a0e1e1612804f49b52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a3530c5b60b4dc3bc1fd5f0af31e32361',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ab4098b3e8ab8552ec947cbb52de77a0c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc6e9b570bfaac7771adbc13408463be',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ab2bfbf20e506af2d9ee18af83b527e5e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#aaccb85f565c3b1d5a36dbf413fe05ec4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a799bc0e6eb13b05b038c910b7a650bd8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#ac2e2b47b2c51943f4ff8fabdfb57f270',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a026a0932fcb72fcf66460486db323e9f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a99db511954f4e0ced515daf371cda8da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6baf7387932e58b5a570e01ea0fb2638',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a1f859731d1effb901df0012fbdf35756',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a3451cc31def5c831a428e221f4713d57',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a55aad527eb01f16edb9ec021704e4a60',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a494688d7ae0362eb0e5aacbc0ecf19c7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a95227f34f2ab6c04dcaadd41e1886304',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a62e5730bd70e4665352946a17b3fd18a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a91027c49f28b9c30a8fe20c5ede43b4f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af003bb8591ecd9b6b755807f601cbde6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#af9fea1c8c674df3acb9e76cafe6518fe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a5f06095eeec3319c0936d2a99a095054',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a30c5340455dedcd1684d0858738d7c9d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#ab753932a15b63161c3d38c683e2d290d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a874c752c07a36fb38f9476fe78a46735',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ab2c641791d87abe8e19dcee2b3726819',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a7e755382f2ce1290c7c3357ecc025b78',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a30b2c51012735e4ebe919dba89c4d8cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a365c2eb2cec39bb504cdae18934b89c3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a004e2b2b3ffa5c4c402b2f56fee16ce6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ae3be8dde6dfb4fe3ba1a815b319a2925',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#ac5817730d59e634a76e7aafce41aaf26',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a93d410b588239e17ac8e10d7d6e291a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode, float max_norm):&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a4172fb110abe23887cdaf0536ef2bcaa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a03929e871fb455cace7f23efc0d24583',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a468a45d6ca5a19247698337fc33f435d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a184065748160f0c7788467d39b27f5d1',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6a9022b14995bf97b8f204dc404e1e8d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#aea5128dbea65fac0ceb8b42749f74099',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a8f1a8a90b130ae668e3b6b7947c6c4f5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a2e889d0595ab0362613d58e7ff8960b7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6014caa4aca0c9e7b583e71900a0a48c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a90005cd7c4e9aae8498fd1d938983179',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a384fb2660e3cb8a46cf1154d5b45bf2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a297213250dad534fbb5b3654e854f1a4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a012a4e2ee1f52bb243e5388eec3e8a5c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a0c3bd53d12b516a80478d5a9017a684b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#ab20ec4fe16b91aae91640b2dd5452ed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a843389bf3c054d1a20a6115d47d99cf7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ac79c384938b7bffef4943090b602ba5e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#aeac8eff5cada3efbb3674213a5f42bc9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#afbd549d3981439a47fb0c3811e9eacf4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a5f6a21f619bb88465b760c5556fe6f1b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#ab03dcc766f91725239b7737cee2b194d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a2b9bc69930f735395605b0b91203d7a5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6d5664cd6fa11c72a6de5f652e0aec5d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#af412ff33330b1349cbf7c2a33e58f9a7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abcba604787cbdb187f05ab27324d67f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a33f05c8d5a2149e88f0c5a0a446357c2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#ad387d04e602a3a29f7b44eaeb1edb9fa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a9cd29bb0dd406092916c5eb0605aaf0d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a7b5add21eacc916018bb3b4e0fd96436',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a5da06cf5b2fca41ca811bae68efd4049',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a853a5012db3ca2150440460e10d486ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#af1c9033199b40adc628848b21f60b950',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0d5d4738a27dacbbecc699b0297a6331',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a260b636a6d13f307a286c4b24b47a1cc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a05a2693fb5198654434e63ef4a07981e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#ad178df90f04b6ef9c3c907c699042d8e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a04d2d84d9856aa9de1f36e1813d4c172',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a0c158805e4537d8825326a3ecddf9c9c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#ac6a60f786cbc800c9b675f386c1014ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a91f984a560c40dcae1abbb2391fa2fda',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6c5b8de0acb5391f4dc4172ce5ca094e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#afb504ea4eac563c64b42343e986a7847',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a3c2fb3ecac9e0bd458fbd1023025d5d5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6dfe39e1df2bced46b2e0991e3435be9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#aed82b2485ec72bfc56b2fae686d062f0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#ac3a5c0e1adaae87917f2645e6a2afa46',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a54694cb47dc38390f1b301aa039cb31d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a9c2f7f4369735aa317a88c819b378f43',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; prev_iter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; prev_iter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; prev_iter_offsets, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; row_counter_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; row_counter_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_counter_offsets, float eps, float learning_rate, float weight_decay, int64_t iter, int64_t counter_halflife, int64_t adjustment_iter, float adjustment_ub, int64_t learning_rate_mode, int64_t weight_decay_mode, int64_t grad_sum_decay, float max_counter, float tail_id_threshold, int64_t is_tail_id_thresh_ratio, int64_t regularization_mode, float weight_norm_coefficient, float lower_bound):&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a98043b075d1f73a69bd0b19b1a24283e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a188fb685cd69453ab94f992332f523a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a025f08f037ddf498278c429e09fd4d4a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a35f6a98383bf1ed951023b1fe432ed4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#ae079dac6052edf65f8a39b4fd9de7c70',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a745a7f66bb6899e5071ee55e90f23368',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#af9137cfc1d9e0421323b78bf589c34fc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a440eee4271eb5f61b204de4ec66054d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#adf1cf7a1807aab50d346ef163c534c1d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#acde8c89a937e31cb98aa026b261cfe23',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ab8e910b2c682642ac61185d1b155c5eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ad1d9234d02b6be2ab2bdc5f4a8dc5701',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#ae5465342deb9e71765693c8929b5f475',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a377694b1c0ce71b8d0c56077a904f7d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8d2430849bd51fc5ad283d1a300cabba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a8ecc1609ac62272a2c0f5a1e1cddbed5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ae8c1bfed5b951970a40f4028998d21fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a73eba662cabf7a9761d2cf5d195206f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ab903a35e3bd981f1436d46179b87ecb9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a4074249c4919e43d534eb0904fa4693b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a77fbe03e0ff353a2ebe490cf97f0c353',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#ad39229402610f8c9069ea8a7e1c6a0ab',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a01c0225eea92b7b0403572335b1abc61',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a3490c2bf081c92095011640fb03961b5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af95c4def12e4117e2d7bdc89b8fb0506',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a3f1c2f2aebc7a13ddade48d2a2f0301c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a023ead14754421961a4b473a3b1bb81c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a5ff2b2e15a95a8d176f99a8eebddf45d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a4f470748a75cfc59c5c7a0cb577289f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#aebd1c348edc2accec933a20abbf4ff2a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#af13fd6356fec61b096f429f666c4d50a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a8ae09f234561f1e415ef920bbf6eba22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6c1e5c2776f4209766c769243bf57894',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a96ca79bd9787eab9dfe57a09f61590db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af8966c1a682b91a466caa300f057d2cd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#aea22f0f456a89d61d1a066e7b363f59a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a22292529eb85249ba3bec7be758eebee',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a933ef9f4d58e4ecad71988cd6f5ad537',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#af15cb1c5b6cddd5d3678e3cee0a6cefe',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a11b62696a1fcc6753a62e4b7b78987a9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a58cc18641eaeee8eb587cb2a3726e85b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ad7d432c589db7e87949a9d0ca5533b54',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a98fc1738f166a55809b2648796416db0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0cb98e4afaf555388869ebe3242fc7d0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac0e36eb9e678f52e0561366229ecc4bf',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac58c7e73b10a41dc9f49d4e477b20fb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#ac7cbe79ba3521a4bbd4c14a74fd6adff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a0e895892d276833086475c0e7f1b7927',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t weight_decay_mode):&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#affa3d280e56d69dbe39ea3bda0bcba6e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a7f2d784a0f6604d457a71d725eca24ef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abd72df618308d6a739f91188cc5a1e91',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a5db669968a840fd6cd68feb612d416de',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a94192c3fad25107220bf7cf718abdfed',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a0dadc1a7dd7578c22f5d239047bf7794',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a48f4d0c7f7758b5149c9d96abb61354d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a173df29f55015b4b4d8c9cdda6986823',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#aed68dca4d92a97e556d3073cab88a18f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a23c47f9e7c8f8a011e9a2d3778e2a65b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a856011203b19087ab6f1eebb7a8f18dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a69682ffbf2a367fa7e6d25edd9cf1218',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a12192a01089a95a93f5a384e9faaa312',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a58f3e7232aae5283c177ee7305d1bede',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a7412bb61fd123be30b935508b1839d66',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#afd57c62802e581a57d2e9daa52b09e4b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5d3923934afd4c41777f94dd36798bb8',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#ac0c8d3772833c3ef461a44cabc9cda70',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a5b2d60d4092d3af5e898446d1ffc3282',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#aed55f18c1fecec6d6de78577918449a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a240624068305d411db3cdece269f6a2f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6854bab8c0d96882e4f9f980880531bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a9ab47f5d78d1d005e9f8784e812589b0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#af7d6e1a2bc0d32d0273140358b977b4e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#ad94f32bbc65499df3140ee3a12f12dbc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a84246813bd816d0adfa4751b327dbfa6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a90ffe039f52ddd5cf5e1108e7116b612',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#af129bcfb9d742a9a531ee4c3324bdb9a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#add33ba4596f143bb11a12a3508c0fb32',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a7b80756a8fab65071212121bf535f2d3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#aef2fbd1a40bded32e9118172ea588823',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#aabf9c6be454bf78678fc82ba87ed2b56',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a2e2219247d875dadcb571833d8282ca4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6940aede0efad4a0cca521cfdcec433b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ac7273b842f26b655461dfe827e4bc669',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#aaea9d9291155e312439e673a39970cc3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a45a1b05c68acf892f30f7ee837bb5aac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a526a3a91d4d22f8f4b8b25d52ea7539c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#ae9fc0a17625be30b2c3e94857e45e660',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a7d36afee5962e7c2e645ed580a9293d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#af6ea5271fc0e7434bb952837a4ec992c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#adf897a86ff3ef489f638c5d6cd604fb7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6562c95418573901d3dd3e933fdb1798',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a2da0fed4926ad614ee0554b8f818854d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a29dc67ef45e2c108c079066771ca4b15',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a908dadafc7b1c847ac07f402090b784c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a861cd39a27db6459d3d308938724a605',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#aceb4cd33e669bb98a7d191fb45221a80',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_dev, pta::PackedTensorAccessor64&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; momentum1_uvm, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; momentum1_placements, pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; momentum1_offsets, float eps, float learning_rate, float weight_decay, int64_t iter):&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a9a42f11861e28ce77032f8047e83ea11',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a8bdc52848ae2ccea30492b4414adb034',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a0c819af30fed201203e68ceda2eca173',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a0720d53a4c9644a99b5cbe9e245dc3e9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#af0d4736eed64c8bbf3a20923bb9c29f9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#ad54cfe3bdecfc6441753596772402ca3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a2503c0d4c5e56ba15bfb7df317dda0ac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6d8a94d5bd394aab6b93267e3f0f2673',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a5917f6544b279539f51ba07a7d4d5ca5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a160f8f69b25890024d8d91dd87bbba82',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64537991cc98a52cb2bd884dbcc7bebc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#ae0574dfcf396c58dc8863401720dacb5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6bb05de78f7804f75e027524d191e5da',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a64b45cd53c38d53cedf6f4d66afd11f5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a9d44bcd45f9e02788aecbf226dbeb110',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a1d850e642c167b5e60a73c88a47f7f16',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#adae5d509289eae4626e7cc6eda18efbb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aebc5dd156def696b75e9590fdd7e44f4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a4e775aca46c2cf5dfe37c97a0c320eef',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abff5c0eb0f3d6a4dda6f6a5f51450dad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a7cfbc77648395dd0be255b6c2a04797e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#aedc7a4a2ea94e6294c49780531ce8562',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5d38c3b8f12784860c0d0219684a22f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a5ba8347d410dea8ce7952d7e5674a053',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ad491955b35ee3fb84ecdbc35426aa9c6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ada25cfa4c47b6ce54c00b842e414e5cb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#af4e0c8de103d5b95b3930d72723dedde',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aa7f8ec16263de0ec18ba44144f3f6409',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#ab49ef540e21a06c9366b7a4b1b643855',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#aab891f89faefe34faf30508569d63250',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a9a34cc24631cc7850723f21d44ac9bb3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a0a8f9dbd0e03e001dc43109c9b58edca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a8f1dc526305df11d57d5151eb78864fd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#acb04bf74aa1979914c837887050094ee',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a79789b33f1e3e7e2f3908b939ae1e44c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a3b929350b08473bf7001fb6e8d38f64d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a027461b35f0b0e8c2245ef80575fe911',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a81afc9990a7d79a97ddf8ee0bb84f62b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a98e60157f32325eabb7ce026f700e32f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6050e98a82b09a3401ba1bcefb21abdc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#acb1714d604a523f5860b4c87e669c715',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ab83eacf00da6299593ee678a4b1e4615',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a4682eb9fbf137eb4577349e11559ecd0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ab5dafd4069aae36629ecb34e3975ea6f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#aa223add1301373e53e5b0ac08530a54e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a46cd5ec5d4f141fe5dcce4a8b22a1aff',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a8aee7d2ca70c048a87381106420a93b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#ac111217914f0bc07a2ec19cf00f46b52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a1a5b4fc1cd662532df45be95fae00e34',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ae8e719bacb730ff6f6f24b072264fece',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#adc76a3911b3c75253490fa732520c59d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a0246985d6062109ceb9d0a316e236be9',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ad84b0786ecfc63b8b6b3a1383dbfe719',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#aa5cf42df68862104a475751de18f2d7d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#ad32698d0cc220a69f7ffe6cf58fe5389',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#af6476f9b0a8e869bb5f1fbc1c39714ca',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ac2742fc3885cf36bb8ac4d7d4c24587f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a7b4db1681ed1be00464c3420ff441efa',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a050fc99733adcb785414bd0c401d02e0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#ae79041a9602287ab549b549edc4f5040',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a981ec80c80a0ca3713a250bca8dcfd2d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a8e5539e49116fc0d95e74b70fff7eb96',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#af896552004ed24a4f6289bd6321b95b3',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a153506803483f7484c6fc69a32b06b26',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aae8702725dfe41086ad78bb86764b34c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#ad07aac3191ff79c34b89afd9b89305ad',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#adf78b0255c91deececdee2d30eb7f2ae',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a3860c9b9fc99bf6f1e19426e6d95f473',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a57427b04d21bb9e1302a85d709f94e02',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#aaa3e935211a7fd38509a279705c5e5d7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a7ee0552285c492916b1c76b31630d3c2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a4ef721cf4ccbf7faeaad926427c279f7',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; num_long_run_ids, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; long_run_id_to_really_long_run_ids, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 2, at::RestrictPtrTraits &gt; temp_grad_accum, pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; grad_accum_counter, const int32_t max_segment_length_per_cta, const bool use_deterministic_algorithms, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a0ab8a7e2535ae5a3f056f529bcb1071a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a573d877b87f31127000da9bc22ad74f2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#afcba725b1740e61675c5148dd9523082',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a027faf7fa459ca567059607e155a1546',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#ac7a033e21d13e0bd2a2268a4086c9770',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#ab065602b705ef3209e6d4de9f8dc0bb2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a4342e36e81769a5d3992a7c557cb4e0e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a88f0e0bc690728b1e246b8248e9ec6e5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; grad_output, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; hash_size_cumsum, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_run, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_cumulative_run_lengths, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_infos, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_lxu_cache_locations, const bool use_uniq_cache_locations, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; table_unique_indices_offsets, const pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; sorted_indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; sorted_linear_indices_num_runs, int32_t max_segment_length_per_warp, bool stochastic_rounding, at::PhiloxCudaState stochastic_rounding_philox_args, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; B_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; row_output_offsets, const int32_t info_B_num_bits, const uint32_t info_B_mask, float learning_rate):&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#afb628f9293807019a85f62216802fb27',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a4cfe4909493e5c6c0b3272b407756da5',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a54d7f4614b27377a702368d9be00913a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a8a9dfc0b7289bfa8ee20c3a9c89a1382',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a5e36f01e2e5309c8de784ae9cf8b6995',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae45afbdb3f525626eeb8ec0c6be41f24',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a067da40e6e91e38bb46e13bab2169087',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a9ddc1dda2eb92f1166514ddb7da1bbc4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a031019a7e2638f18e08649bd6c279449',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a63685bd7126cdab9a0d8e4046c3e150c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a623f10d789c87a085d7c83199ac22f55',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ab30ac9e21532c639d357440a7edfc7eb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a3dfcd6c505c277727fdc5a5efd1f21d2',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ab0581905b4247bac67216a78dfb722c0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aa21811af7885f72fe15a805872bd5a22',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a14fb66cd776fba62200b634101140f86',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#aff669225134b913ac286c1517e039727',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a87b17b201934f903fd2f193ac6a71629',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#abdf19a2e8c33cb0148de770a95bd662c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a469aee03c0d8fde04842d8747ef880bb',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a3048e1d82f672e144f218a9bc1f02bba',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ad6d957e4c772be151a4b6c0937b71e2c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a4199338fdc51c5f831d168e63d783674',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a83fe0c13753b93fbe0b623e8bc652721',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#aea91359dc803899d522a74120b6d587c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a2cae6fdef6f90d98293e7e6f2eda2138',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a254bf4fa577be3f3edb7bf1dc9339295',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ad9e0f41f3ef8ca4cd788578980ccd083',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0277f9514d8b9668290fe078c5ad155b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5da4584d7767e8c488e4e29780c3aadc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a5ea57f49a9d1efbc601b256ec5d13107',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a93ac400107836c0de2730e3a54959ed6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0e17c23a544e4b4ebaf07d215ece084f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a51028935eee6951c1298eb5d7092d650',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#adfec29a5a30407f3b60408b80419baac',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0566524005bbfc2c27eac06fe4ebe955',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a568c659233485f309357ee134d1b748f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae5b51047bc4a0305b636290e7ddb278a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a3262dbb14f77bf739b020bdf79075384',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0f68f3297710141bc57e677b3d0587ce',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a4876b4f94d323f090efef96432fc27a0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1c7d35447c029aba8ddce8e9532a8d82',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ad69828fa35cf5312392a5791a435ac3f',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0209c0fd938024beedd0716523eaa090',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a9461df0509fec5e584eaa309acb4e0ea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a95cb4e2cdf49f5f5ba2f9a2acf3ff32d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#af585b19bb7928041ac8b70d56c7d6f1a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a8c3130a42a235a75553eaf160ac657dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, int64_t D, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8bd2c5adf9e33805340e4717cd9f0617',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a3d0b2d3bd9c920851a41c71817e28378',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a436f00b93c571aa3159b822122e4e781',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a17466673ca73e70a4887999d2955aaf0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#aea632259492fcd4ba0011382bee2beea',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a4458fec1221cc0c7df2c1ef8bef422db',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#aaf16de5ee78d9de99a703cdbe61255c0',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a8835d1cabbeed24c96e827473542eea4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a931774f9fe3e608ee4b30ec8e200049b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a2463ea08e2eade6932bdc3b08dbf3f4b',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abdcfee895dc0dbe60f3899820e3faef6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#afdce4c5ff535f039b96169a5441d66f6',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#aefd9621d81effbb756e78929daae8517',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a91968527cd3a341bbc8777ae41190d41',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ac9f0e82189d5fd39e1aed1f89eb7336d',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a61ff627d873a281ecf852f217e944c4c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#afe7f0771d29a6a9ffd897e23dd341d7c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ad96d48c6eacdc0589531c48472f370dd',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a82d9c13b59a58a367c962ccdaa95bc01',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ab46e47b9451a78d43c7c23cf897e9445',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#af359f9c87918957f14c927e52e0d719c',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#af47656d04bdce098caf47b331b74fe2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a43cd667ed17b8606af1dd1f5027311a4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a99087a69215e3ecfff828e64866fb490',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, FixedDivisor fd_B, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ad6141ba5c93e5aea872230ecd4a0d878',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a7bb186f4330ddb51696533419c414b5a',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acf2c859f1eecda3ddf9ec37754afe3e4',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a7745e0ade9aa98a7050c6a76c59e88bc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a51039fcb60604faf673a12fc9962de52',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a39c7a917fc74982eb89a2a6770d0be92',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a094950f659c8dd934ea88348ed79dd2e',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#af4df56b4d05360a4cc547377c34a79dc',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a69613a0e40ad1ddb76bcf494c6eba437',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; float, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a039318e8b0ec66d135fcd3f9b16a4228',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; uint8_t, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ab89613a21534acb8fe6c89a570467067',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a3947e811d4918cac9bd3e70fcce80126',1,'kWarpSize(const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; dev_weights, const pta::PackedTensorAccessor64&lt; float, 1, at::RestrictPtrTraits &gt; uvm_weights, const pta::PackedTensorAccessor64&lt; at::Half, 2, at::RestrictPtrTraits &gt; lxu_cache_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; weights_placements, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; weights_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; D_offsets, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; output_offsets, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; b_t_map, const int32_t info_B_num_bits, const uint32_t info_B_mask, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices, const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; offsets, int64_t pooling_mode, pta::PackedTensorAccessor32&lt; at::acc_type&lt; at::Half, true &gt;, 1, at::RestrictPtrTraits &gt; indice_weights, const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; lxu_cache_locations, pta::PackedTensorAccessor64&lt; float, 2, at::RestrictPtrTraits &gt; output):&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]]
+];
diff --git a/search/functions_c.js b/search/functions_c.js
new file mode 100644
index 000000000..eb5b6db5a
--- /dev/null
+++ b/search/functions_c.js
@@ -0,0 +1,29 @@
+var searchData=
+[
+  ['lengths_5frange_0',['lengths_range',['../namespacefbgemm__gpu.html#a9599d315f833a6d562ee1d25d4ee5923',1,'fbgemm_gpu']]],
+  ['lengths_5frange_5fcuda_1',['lengths_range_cuda',['../namespacefbgemm__gpu.html#ace0a963a484e5501c50533122cdecc3c',1,'fbgemm_gpu']]],
+  ['lengths_5frange_5fout_2',['lengths_range_out',['../namespacefbgemm__gpu.html#a19280a435704ff4093b148460c37bc84',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5ffind_5funcached_5fcuda_3',['lfu_cache_find_uncached_cuda',['../namespacefbgemm__gpu.html#a9e8721a4003045038e10d3a4c8258c96',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_5fcpu_4',['lfu_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#a45bb3081a2688f09448ffda6bc5d5f2e',1,'fbgemm_gpu']]],
+  ['lfu_5fcache_5fpopulate_5fbyte_5fcuda_5',['lfu_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu'],['../group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3',1,'lfu_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, int64_t row_alignment):&#160;lfu_cache_populate_byte.cu']]],
+  ['lfu_5fcache_5fpopulate_5fcuda_6',['lfu_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(at::Tensor weights, at::Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, at::Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu'],['../group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc',1,'lfu_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, Tensor lfu_state, bool stochastic_rounding):&#160;lfu_cache_populate.cu']]],
+  ['lfu_5fupdate_5fcounts_5fcuda_7',['lfu_update_counts_cuda',['../namespacefbgemm__gpu.html#aca510adc64caa635df004e9b419bbb1b',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_5fcpu_8',['linearize_cache_indices_cpu',['../namespacefbgemm__gpu.html#a6eaeebeb996c343db6d076fce7952133',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_5fcuda_9',['linearize_cache_indices_cuda',['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor indices, at::Tensor offsets):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6',1,'linearize_cache_indices_cuda(Tensor cache_hash_size_cumsum, Tensor indices, Tensor offsets):&#160;linearize_cache_indices.cu']]],
+  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcpu_10',['linearize_cache_indices_from_row_idx_cpu',['../namespacefbgemm__gpu.html#a9c7ab59a89fd36f5c07b9c86bdc891c8',1,'fbgemm_gpu']]],
+  ['linearize_5fcache_5findices_5ffrom_5frow_5fidx_5fcuda_11',['linearize_cache_indices_from_row_idx_cuda',['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(at::Tensor cache_hash_size_cumsum, at::Tensor update_table_indices, at::Tensor update_row_indices):&#160;linearize_cache_indices.cu'],['../group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05',1,'linearize_cache_indices_from_row_idx_cuda(Tensor cache_hash_size_cumsum, Tensor update_table_indices, Tensor update_row_indices):&#160;linearize_cache_indices.cu']]],
+  ['load_12',['load',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; float &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const at::Half *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const at::BFloat16 *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const float *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const uint8_t *p)'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#afaf3bc4be251007b23417bf53b8223db',1,'fbgemm_gpu::Vec4T&lt; double &gt;::load(const double *p)'],['../structfbgemm__gpu_1_1_weight_row.html#a889b0ea41fd15897021ab06b2d62bf29',1,'fbgemm_gpu::WeightRow::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b08d5d5c065fbbe307dfa9237f58dc7',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad300c1cf97abb3337915a7b9616b371e',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::load()'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a86807843e011cecc10c8f37761f5fc20',1,'fbgemm_gpu::Vec4StepT&lt; STEP, uint8_t &gt;::load()']]],
+  ['load_5fqparams_13',['load_qparams',['../structfbgemm__gpu_1_1_weight_row.html#a5f3a7bac9f71533d09bb41e67708ffc2',1,'fbgemm_gpu::WeightRow']]],
+  ['load_5fqparams_5ffrom_5frow_14',['load_qparams_from_row',['../namespacefbgemm__gpu.html#a003948b9ad61509936564075f2cead23',1,'fbgemm_gpu']]],
+  ['lookup_5fbatched_5funary_5fembedding_5ffunction_15',['lookup_batched_unary_embedding_function',['../namespacefbgemm__gpu.html#a74ffde7bbe921424bef364880c5d57ea',1,'fbgemm_gpu']]],
+  ['lru_5fcache_5ffind_5funcached_5fcuda_16',['lru_cache_find_uncached_cuda',['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(at::Tensor unique_indices, at::Tensor unique_indices_length, int64_t max_indices, at::Tensor lxu_cache_state, int64_t time_stamp, at::Tensor lru_state, bool gather_cache_stats, at::Tensor uvm_cache_stats, bool lock_cache_line, at::Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu'],['../group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd',1,'lru_cache_find_uncached_cuda(Tensor unique_indices, Tensor unique_indices_length, int64_t max_indices, Tensor lxu_cache_state, int64_t time_stamp, Tensor lru_state, bool gather_cache_stats, Tensor uvm_cache_stats, bool lock_cache_line, Tensor lxu_cache_locking_counter):&#160;lru_cache_find.cu']]],
+  ['lru_5fcache_5fpopulate_5fbyte_5fcpu_17',['lru_cache_populate_byte_cpu',['../namespacefbgemm__gpu.html#a8d6ac45089730a607c2a46a265ac8b7b',1,'fbgemm_gpu']]],
+  ['lru_5fcache_5fpopulate_5fbyte_5fcuda_18',['lru_cache_populate_byte_cuda',['../group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11',1,'lru_cache_populate_byte_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor weights_tys, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate__byte_8cu.html#a53a2183d85282ab5726018767388efe8',1,'lru_cache_populate_byte_cuda(Tensor weights, Tensor cache_hash_size_cumsum, int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor weights_tys, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, int64_t time_stamp, Tensor lru_state, int64_t row_alignment, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats):&#160;lru_cache_populate_byte.cu']]],
+  ['lru_5fcache_5fpopulate_5fcuda_19',['lru_cache_populate_cuda',['../group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06',1,'lru_cache_populate_cuda(at::Tensor weights, at::Tensor hash_size_cumsum, int64_t total_cache_hash_size, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, int64_t time_stamp, at::Tensor lru_state, bool stochastic_rounding, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; at::Tensor &gt; lxu_cache_locking_counter):&#160;split_embeddings_cache_cuda.cuh'],['../lru__cache__populate_8cu.html#ab841aec9d8660e547e492948a2ee9921',1,'lru_cache_populate_cuda(Tensor weights, Tensor cache_hash_size_cumsum, const int64_t total_cache_hash_size, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, Tensor linear_cache_indices, Tensor lxu_cache_state, Tensor lxu_cache_weights, const int64_t time_stamp, Tensor lru_state, const bool stochastic_rounding, bool gather_cache_stats, c10::optional&lt; Tensor &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; Tensor &gt; lxu_cache_locking_counter):&#160;lru_cache_populate.cu']]],
+  ['lt_20',['lt',['../structfbgemm__gpu_1_1_comparator.html#aff9ffad7ca52493418c969769327b704',1,'fbgemm_gpu::Comparator']]],
+  ['lxu_5fcache_5fflush_5fcuda_21',['lxu_cache_flush_cuda',['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(at::Tensor uvm_weights, at::Tensor cache_hash_size_cumsum, at::Tensor cache_index_table_map, at::Tensor weights_offsets, at::Tensor D_offsets, int64_t total_D, at::Tensor lxu_cache_state, at::Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1',1,'lxu_cache_flush_cuda(Tensor uvm_weights, Tensor cache_hash_size_cumsum, Tensor cache_index_table_map, Tensor weights_offsets, Tensor D_offsets, int64_t total_D, Tensor lxu_cache_state, Tensor lxu_cache_weights, bool stochastic_rounding):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flocations_5fupdate_5fcuda_22',['lxu_cache_locations_update_cuda',['../group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603',1,'lxu_cache_locations_update_cuda(at::Tensor lxu_cache_locations, at::Tensor lxu_cache_locations_new, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#ac602137fddc0c895b176d959fa3fa8db',1,'lxu_cache_locations_update_cuda(Tensor lxu_cache_locations, Tensor lxu_cache_locations_new, c10::optional&lt; Tensor &gt; num_uniq_cache_indices):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flocking_5fcounter_5fdecrement_5fcuda_23',['lxu_cache_locking_counter_decrement_cuda',['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu'],['../group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311',1,'lxu_cache_locking_counter_decrement_cuda(at::Tensor lxu_cache_locking_counter, at::Tensor lxu_cache_locations):&#160;lxu_cache.cu']]],
+  ['lxu_5fcache_5flookup_5fcpu_24',['lxu_cache_lookup_cpu',['../namespacefbgemm__gpu.html#ab26f1a83ce47d5510deed9bc9e9d6d9a',1,'fbgemm_gpu']]],
+  ['lxu_5fcache_5flookup_5fcuda_25',['lxu_cache_lookup_cuda',['../group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f',1,'lxu_cache_lookup_cuda(at::Tensor linear_cache_indices, at::Tensor lxu_cache_state, int64_t invalid_index, bool gather_cache_stats, c10::optional&lt; at::Tensor &gt; uvm_cache_stats, c10::optional&lt; at::Tensor &gt; num_uniq_cache_indices, c10::optional&lt; at::Tensor &gt; lxu_cache_locations_output):&#160;split_embeddings_cache_cuda.cuh'],['../lxu__cache_8cu.html#a083f4fd1219188cc40036595fa6921ab',1,'lxu_cache_lookup_cuda(const Tensor linear_cache_indices, const Tensor lxu_cache_state, const int64_t invalid_index, const bool gather_cache_stats, const c10::optional&lt; Tensor &gt; uvm_cache_stats, const c10::optional&lt; Tensor &gt; num_uniq_cache_indices, const c10::optional&lt; Tensor &gt; lxu_cache_locations_output):&#160;lxu_cache.cu']]]
+];
diff --git a/search/functions_d.js b/search/functions_d.js
new file mode 100644
index 000000000..6c51bf9fd
--- /dev/null
+++ b/search/functions_d.js
@@ -0,0 +1,20 @@
+var searchData=
+[
+  ['main_0',['main',['../_c_make_c_compiler_id_8c.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;CMakeCXXCompilerId.cpp'],['../verify__fp16__stochastic__benchmark_8cu.html#a0ddf1224851353fc92bfbff6f499fa97',1,'main(int argc, char *argv[]):&#160;verify_fp16_stochastic_benchmark.cu']]],
+  ['make_5fpacked_5ftensor_5faccessor32_1',['make_packed_tensor_accessor32',['../fbgemm__tensor__accessor_8h.html#ae5c092ed88e41832d415d06d837889b3',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fpacked_5ftensor_5faccessor64_2',['make_packed_tensor_accessor64',['../fbgemm__tensor__accessor_8h.html#add453d9931017b7ca11b84095566ae26',1,'fbgemm_tensor_accessor.h']]],
+  ['make_5fzero_5ffloat2_3',['make_zero_float2',['../namespacefbgemm__gpu.html#a25e94d75c07b4c2bc5427fe771f2d60d',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat4_4',['make_zero_float4',['../namespacefbgemm__gpu.html#afca9b335bed360fc1ec3e239183a792f',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat8_5',['make_zero_float8',['../namespacefbgemm__gpu.html#a66822cc23f92dbb8c18c596511b2a917',1,'fbgemm_gpu']]],
+  ['make_5fzero_5ffloat_5f16_6',['make_zero_float_16',['../namespacefbgemm__gpu.html#a7dcc205dbf44fb2e80d62bf47eb6c4c4',1,'fbgemm_gpu']]],
+  ['masked_5findex_5fput_5fbyte_5fcuda_7',['masked_index_put_byte_cuda',['../ssd__split__table__batched__embeddings_8cpp.html#ac6846069e59fcf7c6fad94b1321b0dd0',1,'ssd_split_table_batched_embeddings.cpp']]],
+  ['masked_5findex_5fput_5fcuda_8',['masked_index_put_cuda',['../ssd__split__embeddings__cache__cuda_8cu.html#a8a561f5585f09252076650c0d34457d7',1,'masked_index_put_cuda(Tensor self, Tensor indices, Tensor values, Tensor count):&#160;ssd_split_embeddings_cache_cuda.cu'],['../ssd__split__table__batched__embeddings_8cpp.html#a8a561f5585f09252076650c0d34457d7',1,'masked_index_put_cuda(Tensor self, Tensor indices, Tensor values, Tensor count):&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['masked_5fselect_5fjagged_5f1d_9',['masked_select_jagged_1d',['../namespacefbgemm__gpu.html#a0223abaee318471a5e42318a1b7056b6',1,'fbgemm_gpu']]],
+  ['max_10',['max',['../namespacefbgemm__gpu.html#a5f0a51933b0e3b1a96d8806d702ff82e',1,'fbgemm_gpu']]],
+  ['merge_5fpooled_5fembeddings_11',['merge_pooled_embeddings',['../namespacefbgemm__gpu.html#a25ca3ce57c9101b878431d46cc049b50',1,'fbgemm_gpu']]],
+  ['merge_5fpooled_5fembeddings_5fcpu_12',['merge_pooled_embeddings_cpu',['../namespacefbgemm__gpu.html#aad2aea0289bc3c5d135846ee32e0638c',1,'fbgemm_gpu']]],
+  ['min_13',['min',['../namespacefbgemm__gpu.html#a5b62c5028106dcf10b450a8f178338ad',1,'fbgemm_gpu']]],
+  ['mod_14',['Mod',['../classfbgemm__gpu_1_1_fixed_divisor.html#a604d46db75c43e0cd210e5b2ab2bc7e6',1,'fbgemm_gpu::FixedDivisor']]],
+  ['mul_15',['mul',['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::mul()'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::mul()']]],
+  ['mul_5f_16',['mul_',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; float &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::mul_()'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000',1,'fbgemm_gpu::Vec4T&lt; double &gt;::mul_()']]]
+];
diff --git a/search/functions_e.js b/search/functions_e.js
new file mode 100644
index 000000000..c22214cda
--- /dev/null
+++ b/search/functions_e.js
@@ -0,0 +1,11 @@
+var searchData=
+[
+  ['native_5fempty_5flike_0',['native_empty_like',['../namespacefbgemm__gpu.html#a2f18d44e708cafd185e02defd95fb774',1,'fbgemm_gpu']]],
+  ['nearest_5frounding_5fvector_1',['nearest_rounding_vector',['../namespacefbgemm__gpu.html#a94744dd15c8d4ffa9c5cf581e499f1ca',1,'fbgemm_gpu::nearest_rounding_vector(dst_t *output, const Vec4T&lt; src_t &gt; &amp;value, const float2)'],['../namespacefbgemm__gpu.html#aa56064f3d743f7535d59a1baca06dc1f',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; float &gt; &amp;value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aefcbaad4af03b4a72b15ca0ca40bc50f',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; at::Half &gt; &amp;value, const float2 qparams)'],['../namespacefbgemm__gpu.html#aa8fa436e2338f97218eff8a48c94d8a4',1,'fbgemm_gpu::nearest_rounding_vector(uint8_t *output, const Vec4T&lt; double &gt; &amp;value, const float2 qparams)']]],
+  ['new_5fhost_5fmapped_5ftensor_2',['new_host_mapped_tensor',['../group__cumem-utils.html#ga5663643a8ac5de83063d0ff51bb9af17',1,'fbgemm_gpu']]],
+  ['new_5fmanaged_5ftensor_3',['new_managed_tensor',['../group__cumem-utils.html#gab708b23762a11187eb6a32a36f0e34a3',1,'fbgemm_gpu']]],
+  ['new_5fmanaged_5ftensor_5fmeta_4',['new_managed_tensor_meta',['../group__cumem-utils.html#ga5351c6ec3de203476cf09df330455d91',1,'fbgemm_gpu']]],
+  ['new_5funified_5ftensor_5',['new_unified_tensor',['../group__cumem-utils.html#ga6f8847537ea9ed13fc7e2e378bc79b1f',1,'fbgemm_gpu']]],
+  ['new_5funified_5ftensor_5fcpu_6',['new_unified_tensor_cpu',['../namespacefbgemm__gpu.html#aad6847fe2dc2433889aeb2dddf14f496',1,'fbgemm_gpu']]],
+  ['new_5fvanilla_5fmanaged_5ftensor_7',['new_vanilla_managed_tensor',['../group__cumem-utils.html#gad5e0d2307667c3db5e73f0c0eec15df5',1,'fbgemm_gpu']]]
+];
diff --git a/search/functions_f.js b/search/functions_f.js
new file mode 100644
index 000000000..1d555ec06
--- /dev/null
+++ b/search/functions_f.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['offset_5ftbe_5finput_5fcombine_5fwith_5flength_5fargs_0',['offset_tbe_input_combine_with_length_args',['../namespacefbgemm__gpu.html#ab6871043c7881b5434de1e8eea491c80',1,'fbgemm_gpu']]],
+  ['offsets_5frange_5fcpu_1',['offsets_range_cpu',['../namespacefbgemm__gpu.html#a5aff23a0a3b0bc872ba44a0045b6e350',1,'fbgemm_gpu']]],
+  ['offsets_5frange_5fcuda_2',['offsets_range_cuda',['../namespacefbgemm__gpu.html#a3d88da2f7a769565c9ebdc070467eabe',1,'fbgemm_gpu']]],
+  ['operator_5b_5d_3',['operator[]',['../classfbgemm__gpu_1_1_tensor_accessor.html#a72a3b6251f6388b00f3edcd8d3311600',1,'fbgemm_gpu::TensorAccessor::operator[](index_t i)'],['../classfbgemm__gpu_1_1_tensor_accessor.html#a16735630a1b17005797473122c151321',1,'fbgemm_gpu::TensorAccessor::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a00a4aa208155f5c8a633eddc32351081',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i)'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3b81b97c0e920adcd47b7f6a5b0af0cf',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ab6e8f8fe313b1de35e94636bdd4e34dd',1,'fbgemm_gpu::GenericPackedTensorAccessor::operator[](index_t i)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#a6933e03eff2b2428f9eb67e597a520c1',1,'fbgemm_gpu::GenericPackedTensorAccessor::operator[](index_t i) const'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a3593eea2d954fec0db1139e509206816',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i)'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#a07dee357cdcdf158224410aaf987e7d3',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::operator[](index_t i) const']]]
+];
diff --git a/search/groups_0.js b/search/groups_0.js
index 03e08f09d..3db46a5ee 100644
--- a/search/groups_0.js
+++ b/search/groups_0.js
@@ -1,10 +1,9 @@
 var searchData=
 [
   ['combine_20input_20operators_0',['Combine Input Operators',['../group__input-combine.html',1,'']]],
-  ['cpu_20operators_1',['cpu operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
-  ['cpu_20permutation_20operators_2',['CPU Permutation Operators',['../group__permute-pooled-embs-cpu.html',1,'']]],
-  ['cuda_3',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]],
-  ['cuda_20memorty_20operators_4',['CUDA Memorty Operators',['../group__cumem-utils.html',1,'']]],
-  ['cuda_20operators_5',['cuda operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
-  ['cuda_20permutation_20operators_6',['CUDA Permutation Operators',['../group__permute-pooled-embs-gpu.html',1,'']]]
+  ['cpu_1',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['cpu_20operators_2',['CPU Operators',['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
+  ['cuda_3',['CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]],
+  ['cuda_20memory_20operators_4',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['cuda_20operators_5',['CUDA Operators',['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]]
 ];
diff --git a/search/groups_1.js b/search/groups_1.js
index a3a30195c..e7441b2cf 100644
--- a/search/groups_1.js
+++ b/search/groups_1.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['data_20cpu_20operators_0',['data cpu operators',['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
+  ['data_20cpu_20operators_0',['Data CPU Operators',['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators']]],
   ['data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]]
 ];
diff --git a/search/groups_2.js b/search/groups_2.js
index 6e3a28acb..cfc6b1a56 100644
--- a/search/groups_2.js
+++ b/search/groups_2.js
@@ -1,5 +1,7 @@
 var searchData=
 [
   ['embedding_20cpu_20operators_0',['Embedding CPU Operators',['../group__embedding-cpu.html',1,'']]],
-  ['embedding_20cuda_20operators_1',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]]
+  ['embedding_20cuda_20operators_1',['Embedding CUDA Operators',['../group__embedding-cuda.html',1,'']]],
+  ['embeddings_20operators_20cpu_2',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['embeddings_20operators_20cuda_3',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]]
 ];
diff --git a/search/groups_3.js b/search/groups_3.js
index 7e14db79a..f46d26665 100644
--- a/search/groups_3.js
+++ b/search/groups_3.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['for_20cuda_0',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]]
+  ['input_20operators_0',['Combine Input Operators',['../group__input-combine.html',1,'']]]
 ];
diff --git a/search/groups_4.js b/search/groups_4.js
index f46d26665..1a565975f 100644
--- a/search/groups_4.js
+++ b/search/groups_4.js
@@ -1,4 +1,5 @@
 var searchData=
 [
-  ['input_20operators_0',['Combine Input Operators',['../group__input-combine.html',1,'']]]
+  ['jagged_20tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
+  ['jagged_20tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]]
 ];
diff --git a/search/groups_5.js b/search/groups_5.js
index 1a565975f..996ae18ad 100644
--- a/search/groups_5.js
+++ b/search/groups_5.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['jagged_20tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
-  ['jagged_20tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]]
+  ['layout_20transformation_20cpu_20operators_0',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
+  ['layout_20transformation_20cuda_20operators_1',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
 ];
diff --git a/search/groups_6.js b/search/groups_6.js
index 996ae18ad..817f53e67 100644
--- a/search/groups_6.js
+++ b/search/groups_6.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['layout_20transformation_20cpu_20operators_0',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
-  ['layout_20transformation_20cuda_20operators_1',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
+  ['memory_20operators_0',['CUDA Memory Operators',['../group__cumem-utils.html',1,'']]],
+  ['merge_20operators_1',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]]
 ];
diff --git a/search/groups_7.js b/search/groups_7.js
index 4ddf8079f..7d1f3b1d8 100644
--- a/search/groups_7.js
+++ b/search/groups_7.js
@@ -1,5 +1,6 @@
 var searchData=
 [
-  ['memorty_20operators_0',['CUDA Memorty Operators',['../group__cumem-utils.html',1,'']]],
-  ['merge_20operators_1',['Merge Operators',['../group__merge-pooled-emb.html',1,'']]]
+  ['operators_0',['Operators',['../group__input-combine.html',1,'Combine Input Operators'],['../group__cumem-utils.html',1,'CUDA Memory Operators'],['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__jagged-tensor-ops-cpu.html',1,'Jagged Tensor Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__merge-pooled-emb.html',1,'Merge Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
+  ['operators_20cpu_1',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['operators_20cuda_2',['Operators CUDA',['../group__permute-pooled-embs-gpu.html',1,'Permute Pooled Embeddings Operators (CUDA)'],['../group__quantize-ops-cuda.html',1,'Quantization Operators (CUDA)']]]
 ];
diff --git a/search/groups_8.js b/search/groups_8.js
index 1e64f383c..439fdcf54 100644
--- a/search/groups_8.js
+++ b/search/groups_8.js
@@ -1,5 +1,7 @@
 var searchData=
 [
-  ['operators_0',['operators',['../group__input-combine.html',1,'Combine Input Operators'],['../group__permute-pooled-embs-cpu.html',1,'CPU Permutation Operators'],['../group__cumem-utils.html',1,'CUDA Memorty Operators'],['../group__table-batched-embed-cuda.html',1,'CUDA Operators'],['../group__permute-pooled-embs-gpu.html',1,'CUDA Permutation Operators'],['../group__embedding-cpu.html',1,'Embedding CPU Operators'],['../group__embedding-cuda.html',1,'Embedding CUDA Operators'],['../group__jagged-tensor-ops-cuda.html',1,'Jagged Tensor CUDA Operators'],['../group__jagged-tensor-ops-cpu.html',1,'Jagged Tensor Operators'],['../group__layout-transform-cpu.html',1,'Layout Transformation CPU Operators'],['../group__layout-transform-cuda.html',1,'Layout Transformation CUDA Operators'],['../group__merge-pooled-emb.html',1,'Merge Operators'],['../group__quantize-data-cpu.html',1,'Quantize Data CPU Operators'],['../group__sparse-data-cpu.html',1,'Sparse Data CPU Operators'],['../group__sparse-data-cuda.html',1,'Sparse Data CUDA Operators']]],
-  ['operators_20for_20cuda_1',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]]
+  ['permute_20pooled_20embeddings_20operators_20cpu_0',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['permute_20pooled_20embeddings_20operators_20cuda_1',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]],
+  ['pooled_20embeddings_20operators_20cpu_2',['Permute Pooled Embeddings Operators (CPU)',['../group__permute-pooled-embs-cpu.html',1,'']]],
+  ['pooled_20embeddings_20operators_20cuda_3',['Permute Pooled Embeddings Operators (CUDA)',['../group__permute-pooled-embs-gpu.html',1,'']]]
 ];
diff --git a/search/groups_9.js b/search/groups_9.js
index 12d4e8ad5..b57784239 100644
--- a/search/groups_9.js
+++ b/search/groups_9.js
@@ -1,4 +1,5 @@
 var searchData=
 [
-  ['permutation_20operators_0',['permutation operators',['../group__permute-pooled-embs-cpu.html',1,'CPU Permutation Operators'],['../group__permute-pooled-embs-gpu.html',1,'CUDA Permutation Operators']]]
+  ['quantization_20operators_20cuda_0',['Quantization Operators (CUDA)',['../group__quantize-ops-cuda.html',1,'']]],
+  ['quantize_20data_20cpu_20operators_1',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]]
 ];
diff --git a/search/groups_a.js b/search/groups_a.js
index 7c6f6fc5f..202af0400 100644
--- a/search/groups_a.js
+++ b/search/groups_a.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['quantization_20operators_20for_20cuda_0',['Quantization Operators for CUDA',['../group__quantize-ops-cuda.html',1,'']]],
-  ['quantize_20data_20cpu_20operators_1',['Quantize Data CPU Operators',['../group__quantize-data-cpu.html',1,'']]]
+  ['sparse_20data_20cpu_20operators_0',['Sparse Data CPU Operators',['../group__sparse-data-cpu.html',1,'']]],
+  ['sparse_20data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]]
 ];
diff --git a/search/groups_b.js b/search/groups_b.js
index 202af0400..7146073cb 100644
--- a/search/groups_b.js
+++ b/search/groups_b.js
@@ -1,5 +1,7 @@
 var searchData=
 [
-  ['sparse_20data_20cpu_20operators_0',['Sparse Data CPU Operators',['../group__sparse-data-cpu.html',1,'']]],
-  ['sparse_20data_20cuda_20operators_1',['Sparse Data CUDA Operators',['../group__sparse-data-cuda.html',1,'']]]
+  ['tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
+  ['tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
+  ['transformation_20cpu_20operators_2',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
+  ['transformation_20cuda_20operators_3',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
 ];
diff --git a/search/groups_c.js b/search/groups_c.js
deleted file mode 100644
index 7146073cb..000000000
--- a/search/groups_c.js
+++ /dev/null
@@ -1,7 +0,0 @@
-var searchData=
-[
-  ['tensor_20cuda_20operators_0',['Jagged Tensor CUDA Operators',['../group__jagged-tensor-ops-cuda.html',1,'']]],
-  ['tensor_20operators_1',['Jagged Tensor Operators',['../group__jagged-tensor-ops-cpu.html',1,'']]],
-  ['transformation_20cpu_20operators_2',['Layout Transformation CPU Operators',['../group__layout-transform-cpu.html',1,'']]],
-  ['transformation_20cuda_20operators_3',['Layout Transformation CUDA Operators',['../group__layout-transform-cuda.html',1,'']]]
-];
diff --git a/search/namespaces_0.js b/search/namespaces_0.js
new file mode 100644
index 000000000..82a889448
--- /dev/null
+++ b/search/namespaces_0.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['fbgemm_5fgpu_0',['fbgemm_gpu',['../namespacefbgemm__gpu.html',1,'']]]
+];
diff --git a/search/namespaces_1.js b/search/namespaces_1.js
new file mode 100644
index 000000000..f6ba93a89
--- /dev/null
+++ b/search/namespaces_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['internal_0',['internal',['../namespaceinternal.html',1,'']]]
+];
diff --git a/search/namespaces_2.js b/search/namespaces_2.js
new file mode 100644
index 000000000..cc783109d
--- /dev/null
+++ b/search/namespaces_2.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['nbit_0',['nbit',['../namespacenbit.html',1,'']]]
+];
diff --git a/search/namespaces_3.js b/search/namespaces_3.js
new file mode 100644
index 000000000..bde728ac9
--- /dev/null
+++ b/search/namespaces_3.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['ssd_0',['ssd',['../namespacessd.html',1,'']]]
+];
diff --git a/search/search.js b/search/search.js
index 6fd40c677..666af01e5 100644
--- a/search/search.js
+++ b/search/search.js
@@ -22,58 +22,9 @@
 
  @licend  The above is the entire license notice for the JavaScript code in this file
  */
-function convertToId(search)
-{
-  var result = '';
-  for (i=0;i<search.length;i++)
-  {
-    var c = search.charAt(i);
-    var cn = c.charCodeAt(0);
-    if (c.match(/[a-z0-9\u0080-\uFFFF]/))
-    {
-      result+=c;
-    }
-    else if (cn<16)
-    {
-      result+="_0"+cn.toString(16);
-    }
-    else
-    {
-      result+="_"+cn.toString(16);
-    }
-  }
-  return result;
-}
+const SEARCH_COOKIE_NAME = ''+'search_grp';
 
-function getXPos(item)
-{
-  var x = 0;
-  if (item.offsetWidth)
-  {
-    while (item && item!=document.body)
-    {
-      x   += item.offsetLeft;
-      item = item.offsetParent;
-    }
-  }
-  return x;
-}
-
-function getYPos(item)
-{
-  var y = 0;
-  if (item.offsetWidth)
-  {
-     while (item && item!=document.body)
-     {
-       y   += item.offsetTop;
-       item = item.offsetParent;
-     }
-  }
-  return y;
-}
-
-var searchResults = new SearchResults("searchResults");
+const searchResults = new SearchResults();
 
 /* A class handling everything associated with the search panel.
 
@@ -82,11 +33,32 @@ var searchResults = new SearchResults("searchResults");
           storing this instance.  Is needed to be able to set timeouts.
    resultPath - path to use for external files
 */
-function SearchBox(name, resultsPath, extension)
-{
+function SearchBox(name, resultsPath, extension) {
   if (!name || !resultsPath) {  alert("Missing parameters to SearchBox."); }
   if (!extension || extension == "") { extension = ".html"; }
 
+  function getXPos(item) {
+    let x = 0;
+    if (item.offsetWidth) {
+      while (item && item!=document.body) {
+        x   += item.offsetLeft;
+        item = item.offsetParent;
+      }
+    }
+    return x;
+  }
+
+  function getYPos(item) {
+    let y = 0;
+    if (item.offsetWidth) {
+      while (item && item!=document.body) {
+        y   += item.offsetTop;
+        item = item.offsetParent;
+      }
+    }
+    return y;
+  }
+
   // ---------- Instance variables
   this.name                  = name;
   this.resultsPath           = resultsPath;
@@ -102,43 +74,27 @@ function SearchBox(name, resultsPath, extension)
 
   // ----------- DOM Elements
 
-  this.DOMSearchField = function()
-  {  return document.getElementById("MSearchField");  }
-
-  this.DOMSearchSelect = function()
-  {  return document.getElementById("MSearchSelect");  }
-
-  this.DOMSearchSelectWindow = function()
-  {  return document.getElementById("MSearchSelectWindow");  }
-
-  this.DOMPopupSearchResults = function()
-  {  return document.getElementById("MSearchResults");  }
-
-  this.DOMPopupSearchResultsWindow = function()
-  {  return document.getElementById("MSearchResultsWindow");  }
-
-  this.DOMSearchClose = function()
-  {  return document.getElementById("MSearchClose"); }
-
-  this.DOMSearchBox = function()
-  {  return document.getElementById("MSearchBox");  }
+  this.DOMSearchField              = () => document.getElementById("MSearchField");
+  this.DOMSearchSelect             = () => document.getElementById("MSearchSelect");
+  this.DOMSearchSelectWindow       = () => document.getElementById("MSearchSelectWindow");
+  this.DOMPopupSearchResults       = () => document.getElementById("MSearchResults");
+  this.DOMPopupSearchResultsWindow = () => document.getElementById("MSearchResultsWindow");
+  this.DOMSearchClose              = () => document.getElementById("MSearchClose");
+  this.DOMSearchBox                = () => document.getElementById("MSearchBox");
 
   // ------------ Event Handlers
 
   // Called when focus is added or removed from the search field.
-  this.OnSearchFieldFocus = function(isActive)
-  {
+  this.OnSearchFieldFocus = function(isActive) {
     this.Activate(isActive);
   }
 
-  this.OnSearchSelectShow = function()
-  {
-    var searchSelectWindow = this.DOMSearchSelectWindow();
-    var searchField        = this.DOMSearchSelect();
+  this.OnSearchSelectShow = function() {
+    const searchSelectWindow = this.DOMSearchSelectWindow();
+    const searchField        = this.DOMSearchSelect();
 
-    var left = getXPos(searchField);
-    var top  = getYPos(searchField);
-    top += searchField.offsetHeight;
+    const left = getXPos(searchField);
+    const top  = getYPos(searchField) + searchField.offsetHeight;
 
     // show search selection popup
     searchSelectWindow.style.display='block';
@@ -146,55 +102,43 @@ function SearchBox(name, resultsPath, extension)
     searchSelectWindow.style.top  =  top  + 'px';
 
     // stop selection hide timer
-    if (this.hideTimeout)
-    {
+    if (this.hideTimeout) {
       clearTimeout(this.hideTimeout);
       this.hideTimeout=0;
     }
     return false; // to avoid "image drag" default event
   }
 
-  this.OnSearchSelectHide = function()
-  {
+  this.OnSearchSelectHide = function() {
     this.hideTimeout = setTimeout(this.CloseSelectionWindow.bind(this),
                                   this.closeSelectionTimeout);
   }
 
   // Called when the content of the search field is changed.
-  this.OnSearchFieldChange = function(evt)
-  {
-    if (this.keyTimeout) // kill running timer
-    {
+  this.OnSearchFieldChange = function(evt) {
+    if (this.keyTimeout) { // kill running timer
       clearTimeout(this.keyTimeout);
       this.keyTimeout = 0;
     }
 
-    var e  = (evt) ? evt : window.event; // for IE
-    if (e.keyCode==40 || e.keyCode==13)
-    {
-      if (e.shiftKey==1)
-      {
+    const e = evt ? evt : window.event; // for IE
+    if (e.keyCode==40 || e.keyCode==13) {
+      if (e.shiftKey==1) {
         this.OnSearchSelectShow();
-        var win=this.DOMSearchSelectWindow();
-        for (i=0;i<win.childNodes.length;i++)
-        {
-          var child = win.childNodes[i]; // get span within a
-          if (child.className=='SelectItem')
-          {
+        const win=this.DOMSearchSelectWindow();
+        for (let i=0;i<win.childNodes.length;i++) {
+          const child = win.childNodes[i]; // get span within a
+          if (child.className=='SelectItem') {
             child.focus();
             return;
           }
         }
         return;
-      }
-      else
-      {
-        var elem = searchResults.NavNext(0);
+      } else {
+        const elem = searchResults.NavNext(0);
         if (elem) elem.focus();
       }
-    }
-    else if (e.keyCode==27) // Escape out of the search field
-    {
+    } else if (e.keyCode==27) { // Escape out of the search field
       e.stopPropagation();
       this.DOMSearchField().blur();
       this.DOMPopupSearchResultsWindow().style.display = 'none';
@@ -205,18 +149,13 @@ function SearchBox(name, resultsPath, extension)
     }
 
     // strip whitespaces
-    var searchValue = this.DOMSearchField().value.replace(/ +/g, "");
+    const searchValue = this.DOMSearchField().value.replace(/ +/g, "");
 
-    if (searchValue != this.lastSearchValue) // search value has changed
-    {
-      if (searchValue != "") // non-empty search
-      {
+    if (searchValue != this.lastSearchValue) { // search value has changed
+      if (searchValue != "") { // non-empty search
         // set timer for search update
-        this.keyTimeout = setTimeout(this.Search.bind(this),
-                                     this.keyTimeoutLength);
-      }
-      else // empty search field
-      {
+        this.keyTimeout = setTimeout(this.Search.bind(this), this.keyTimeoutLength);
+      } else { // empty search field
         this.DOMPopupSearchResultsWindow().style.display = 'none';
         this.DOMSearchClose().style.display = 'none';
         this.lastSearchValue = '';
@@ -224,37 +163,44 @@ function SearchBox(name, resultsPath, extension)
     }
   }
 
-  this.SelectItemCount = function(id)
-  {
-    var count=0;
-    var win=this.DOMSearchSelectWindow();
-    for (i=0;i<win.childNodes.length;i++)
-    {
-      var child = win.childNodes[i]; // get span within a
-      if (child.className=='SelectItem')
-      {
+  this.SelectItemCount = function() {
+    let count=0;
+    const win=this.DOMSearchSelectWindow();
+    for (let i=0;i<win.childNodes.length;i++) {
+      const child = win.childNodes[i]; // get span within a
+      if (child.className=='SelectItem') {
         count++;
       }
     }
     return count;
   }
 
-  this.SelectItemSet = function(id)
-  {
-    var i,j=0;
-    var win=this.DOMSearchSelectWindow();
-    for (i=0;i<win.childNodes.length;i++)
-    {
-      var child = win.childNodes[i]; // get span within a
-      if (child.className=='SelectItem')
-      {
-        var node = child.firstChild;
-        if (j==id)
-        {
-          node.innerHTML='&#8226;';
+  this.GetSelectionIdByName = function(name) {
+    let j=0;
+    const win=this.DOMSearchSelectWindow();
+    for (let i=0;i<win.childNodes.length;i++) {
+      const child = win.childNodes[i];
+      if (child.className=='SelectItem') {
+        if (child.childNodes[1].nodeValue==name) {
+          return j;
         }
-        else
-        {
+        j++;
+      }
+    }
+    return 0;
+  }
+
+  this.SelectItemSet = function(id) {
+    let j=0;
+    const win=this.DOMSearchSelectWindow();
+    for (let i=0;i<win.childNodes.length;i++) {
+      const child = win.childNodes[i]; // get span within a
+      if (child.className=='SelectItem') {
+        const node = child.firstChild;
+        if (j==id) {
+          node.innerHTML='&#8226;';
+          Cookie.writeSetting(SEARCH_COOKIE_NAME, child.childNodes[1].nodeValue, 0)
+        } else {
           node.innerHTML='&#160;';
         }
         j++;
@@ -264,32 +210,24 @@ function SearchBox(name, resultsPath, extension)
 
   // Called when an search filter selection is made.
   // set item with index id as the active item
-  this.OnSelectItem = function(id)
-  {
+  this.OnSelectItem = function(id) {
     this.searchIndex = id;
     this.SelectItemSet(id);
-    var searchValue = this.DOMSearchField().value.replace(/ +/g, "");
-    if (searchValue!="" && this.searchActive) // something was found -> do a search
-    {
+    const searchValue = this.DOMSearchField().value.replace(/ +/g, "");
+    if (searchValue!="" && this.searchActive) { // something was found -> do a search
       this.Search();
     }
   }
 
-  this.OnSearchSelectKey = function(evt)
-  {
-    var e = (evt) ? evt : window.event; // for IE
-    if (e.keyCode==40 && this.searchIndex<this.SelectItemCount()) // Down
-    {
+  this.OnSearchSelectKey = function(evt) {
+    const e = (evt) ? evt : window.event; // for IE
+    if (e.keyCode==40 && this.searchIndex<this.SelectItemCount()) { // Down
       this.searchIndex++;
       this.OnSelectItem(this.searchIndex);
-    }
-    else if (e.keyCode==38 && this.searchIndex>0) // Up
-    {
+    } else if (e.keyCode==38 && this.searchIndex>0) { // Up
       this.searchIndex--;
       this.OnSelectItem(this.searchIndex);
-    }
-    else if (e.keyCode==13 || e.keyCode==27)
-    {
+    } else if (e.keyCode==13 || e.keyCode==27) {
       e.stopPropagation();
       this.OnSelectItem(this.searchIndex);
       this.CloseSelectionWindow();
@@ -301,82 +239,75 @@ function SearchBox(name, resultsPath, extension)
   // --------- Actions
 
   // Closes the results window.
-  this.CloseResultsWindow = function()
-  {
+  this.CloseResultsWindow = function() {
     this.DOMPopupSearchResultsWindow().style.display = 'none';
     this.DOMSearchClose().style.display = 'none';
     this.Activate(false);
   }
 
-  this.CloseSelectionWindow = function()
-  {
+  this.CloseSelectionWindow = function() {
     this.DOMSearchSelectWindow().style.display = 'none';
   }
 
   // Performs a search.
-  this.Search = function()
-  {
+  this.Search = function() {
     this.keyTimeout = 0;
 
     // strip leading whitespace
-    var searchValue = this.DOMSearchField().value.replace(/^ +/, "");
+    const searchValue = this.DOMSearchField().value.replace(/^ +/, "");
 
-    var code = searchValue.toLowerCase().charCodeAt(0);
-    var idxChar = searchValue.substr(0, 1).toLowerCase();
-    if ( 0xD800 <= code && code <= 0xDBFF && searchValue > 1) // surrogate pair
-    {
+    const code = searchValue.toLowerCase().charCodeAt(0);
+    let idxChar = searchValue.substr(0, 1).toLowerCase();
+    if ( 0xD800 <= code && code <= 0xDBFF && searchValue > 1) { // surrogate pair
       idxChar = searchValue.substr(0, 2);
     }
 
-    var jsFile;
-
-    var idx = indexSectionsWithContent[this.searchIndex].indexOf(idxChar);
-    if (idx!=-1)
-    {
-       var hexCode=idx.toString(16);
-       jsFile = this.resultsPath + indexSectionNames[this.searchIndex] + '_' + hexCode + '.js';
+    let jsFile;
+    let idx = indexSectionsWithContent[this.searchIndex].indexOf(idxChar);
+    if (idx!=-1) {
+      const hexCode=idx.toString(16);
+      jsFile = this.resultsPath + indexSectionNames[this.searchIndex] + '_' + hexCode + '.js';
     }
 
-    var loadJS = function(url, impl, loc){
-      var scriptTag = document.createElement('script');
+    const loadJS = function(url, impl, loc) {
+      const scriptTag = document.createElement('script');
       scriptTag.src = url;
       scriptTag.onload = impl;
       scriptTag.onreadystatechange = impl;
       loc.appendChild(scriptTag);
     }
 
-    var domPopupSearchResultsWindow = this.DOMPopupSearchResultsWindow();
-    var domSearchBox = this.DOMSearchBox();
-    var domPopupSearchResults = this.DOMPopupSearchResults();
-    var domSearchClose = this.DOMSearchClose();
-    var resultsPath = this.resultsPath;
+    const domPopupSearchResultsWindow = this.DOMPopupSearchResultsWindow();
+    const domSearchBox = this.DOMSearchBox();
+    const domPopupSearchResults = this.DOMPopupSearchResults();
+    const domSearchClose = this.DOMSearchClose();
+    const resultsPath = this.resultsPath;
 
-    var handleResults = function() {
+    const handleResults = function() {
       document.getElementById("Loading").style.display="none";
       if (typeof searchData !== 'undefined') {
         createResults(resultsPath);
         document.getElementById("NoMatches").style.display="none";
       }
- 
+
       if (idx!=-1) {
         searchResults.Search(searchValue);
       } else { // no file with search results => force empty search results
         searchResults.Search('====');
       }
 
-      if (domPopupSearchResultsWindow.style.display!='block')
-      {
+      if (domPopupSearchResultsWindow.style.display!='block') {
         domSearchClose.style.display = 'inline-block';
-        var left = getXPos(domSearchBox) + 150;
-        var top  = getYPos(domSearchBox) + 20;
+        let left = getXPos(domSearchBox) + 150;
+        let top  = getYPos(domSearchBox) + 20;
         domPopupSearchResultsWindow.style.display = 'block';
         left -= domPopupSearchResults.offsetWidth;
-        var maxWidth  = document.body.clientWidth;
-        var maxHeight = document.body.clientHeight;
-        var width = 300;
+        const maxWidth  = document.body.clientWidth;
+        const maxHeight = document.body.clientHeight;
+        let width = 300;
         if (left<10) left=10;
         if (width+left+8>maxWidth) width=maxWidth-left-8;
-        var height = 400;
+        let height = 400;
         if (height+top+8>maxHeight) height=maxHeight-top-8;
         domPopupSearchResultsWindow.style.top     = top  + 'px';
         domPopupSearchResultsWindow.style.left    = left + 'px';
@@ -398,17 +329,13 @@ function SearchBox(name, resultsPath, extension)
 
   // Activates or deactivates the search panel, resetting things to
   // their default values if necessary.
-  this.Activate = function(isActive)
-  {
+  this.Activate = function(isActive) {
     if (isActive || // open it
-        this.DOMPopupSearchResultsWindow().style.display == 'block'
-       )
-    {
+      this.DOMPopupSearchResultsWindow().style.display == 'block'
+    ) {
       this.DOMSearchBox().className = 'MSearchBoxActive';
       this.searchActive = true;
-    }
-    else if (!isActive) // directly remove the panel
-    {
+    } else if (!isActive) { // directly remove the panel
       this.DOMSearchBox().className = 'MSearchBoxInactive';
       this.searchActive             = false;
       this.lastSearchValue          = ''
@@ -421,409 +348,333 @@ function SearchBox(name, resultsPath, extension)
 // -----------------------------------------------------------------------
 
 // The class that handles everything on the search results page.
-function SearchResults(name)
-{
-    // The number of matches from the last run of <Search()>.
-    this.lastMatchCount = 0;
-    this.lastKey = 0;
-    this.repeatOn = false;
-
-    // Toggles the visibility of the passed element ID.
-    this.FindChildElement = function(id)
-    {
-      var parentElement = document.getElementById(id);
-      var element = parentElement.firstChild;
-
-      while (element && element!=parentElement)
-      {
-        if (element.nodeName.toLowerCase() == 'div' && element.className == 'SRChildren')
-        {
-          return element;
-        }
+function SearchResults() {
+
+  function convertToId(search) {
+    let result = '';
+    for (let i=0;i<search.length;i++) {
+      const c = search.charAt(i);
+      const cn = c.charCodeAt(0);
+      if (c.match(/[a-z0-9\u0080-\uFFFF]/)) {
+        result+=c;
+      } else if (cn<16) {
+        result+="_0"+cn.toString(16);
+      } else {
+        result+="_"+cn.toString(16);
+      }
+    }
+    return result;
+  }
 
-        if (element.nodeName.toLowerCase() == 'div' && element.hasChildNodes())
-        {
-           element = element.firstChild;
-        }
-        else if (element.nextSibling)
-        {
-           element = element.nextSibling;
-        }
-        else
-        {
-          do
-          {
-            element = element.parentNode;
-          }
-          while (element && element!=parentElement && !element.nextSibling);
+  // The number of matches from the last run of <Search()>.
+  this.lastMatchCount = 0;
+  this.lastKey = 0;
+  this.repeatOn = false;
 
-          if (element && element!=parentElement)
-          {
-            element = element.nextSibling;
-          }
-        }
+  // Toggles the visibility of the passed element ID.
+  this.FindChildElement = function(id) {
+    const parentElement = document.getElementById(id);
+    let element = parentElement.firstChild;
+
+    while (element && element!=parentElement) {
+      if (element.nodeName.toLowerCase() == 'div' && element.className == 'SRChildren') {
+        return element;
       }
-    }
 
-    this.Toggle = function(id)
-    {
-      var element = this.FindChildElement(id);
-      if (element)
-      {
-        if (element.style.display == 'block')
-        {
-          element.style.display = 'none';
+      if (element.nodeName.toLowerCase() == 'div' && element.hasChildNodes()) {
+        element = element.firstChild;
+      } else if (element.nextSibling) {
+        element = element.nextSibling;
+      } else {
+        do {
+          element = element.parentNode;
         }
-        else
-        {
-          element.style.display = 'block';
+        while (element && element!=parentElement && !element.nextSibling);
+
+        if (element && element!=parentElement) {
+          element = element.nextSibling;
         }
       }
     }
+  }
 
-    // Searches for the passed string.  If there is no parameter,
-    // it takes it from the URL query.
-    //
-    // Always returns true, since other documents may try to call it
-    // and that may or may not be possible.
-    this.Search = function(search)
-    {
-      if (!search) // get search word from URL
-      {
-        search = window.location.search;
-        search = search.substring(1);  // Remove the leading '?'
-        search = unescape(search);
-      }
-
-      search = search.replace(/^ +/, ""); // strip leading spaces
-      search = search.replace(/ +$/, ""); // strip trailing spaces
-      search = search.toLowerCase();
-      search = convertToId(search);
-
-      var resultRows = document.getElementsByTagName("div");
-      var matches = 0;
-
-      var i = 0;
-      while (i < resultRows.length)
-      {
-        var row = resultRows.item(i);
-        if (row.className == "SRResult")
-        {
-          var rowMatchName = row.id.toLowerCase();
-          rowMatchName = rowMatchName.replace(/^sr\d*_/, ''); // strip 'sr123_'
-
-          if (search.length<=rowMatchName.length &&
-             rowMatchName.substr(0, search.length)==search)
-          {
-            row.style.display = 'block';
-            matches++;
-          }
-          else
-          {
-            row.style.display = 'none';
-          }
-        }
-        i++;
-      }
-      document.getElementById("Searching").style.display='none';
-      if (matches == 0) // no results
-      {
-        document.getElementById("NoMatches").style.display='block';
-      }
-      else // at least one result
-      {
-        document.getElementById("NoMatches").style.display='none';
+  this.Toggle = function(id) {
+    const element = this.FindChildElement(id);
+    if (element) {
+      if (element.style.display == 'block') {
+        element.style.display = 'none';
+      } else {
+        element.style.display = 'block';
       }
-      this.lastMatchCount = matches;
-      return true;
     }
+  }
 
-    // return the first item with index index or higher that is visible
-    this.NavNext = function(index)
-    {
-      var focusItem;
-      while (1)
-      {
-        var focusName = 'Item'+index;
-        focusItem = document.getElementById(focusName);
-        if (focusItem && focusItem.parentNode.parentNode.style.display=='block')
-        {
-          break;
-        }
-        else if (!focusItem) // last element
-        {
-          break;
+  // Searches for the passed string.  If there is no parameter,
+  // it takes it from the URL query.
+  //
+  // Always returns true, since other documents may try to call it
+  // and that may or may not be possible.
+  this.Search = function(search) {
+    if (!search) { // get search word from URL
+      search = window.location.search;
+      search = search.substring(1);  // Remove the leading '?'
+      search = unescape(search);
+    }
+
+    search = search.replace(/^ +/, ""); // strip leading spaces
+    search = search.replace(/ +$/, ""); // strip trailing spaces
+    search = search.toLowerCase();
+    search = convertToId(search);
+
+    const resultRows = document.getElementsByTagName("div");
+    let matches = 0;
+
+    let i = 0;
+    while (i < resultRows.length) {
+      const row = resultRows.item(i);
+      if (row.className == "SRResult") {
+        let rowMatchName = row.id.toLowerCase();
+        rowMatchName = rowMatchName.replace(/^sr\d*_/, ''); // strip 'sr123_'
+
+        if (search.length<=rowMatchName.length &&
+          rowMatchName.substr(0, search.length)==search) {
+          row.style.display = 'block';
+          matches++;
+        } else {
+          row.style.display = 'none';
         }
-        focusItem=null;
-        index++;
       }
-      return focusItem;
+      i++;
     }
+    document.getElementById("Searching").style.display='none';
+    if (matches == 0) { // no results
+      document.getElementById("NoMatches").style.display='block';
+    } else { // at least one result
+      document.getElementById("NoMatches").style.display='none';
+    }
+    this.lastMatchCount = matches;
+    return true;
+  }
 
-    this.NavPrev = function(index)
-    {
-      var focusItem;
-      while (1)
-      {
-        var focusName = 'Item'+index;
-        focusItem = document.getElementById(focusName);
-        if (focusItem && focusItem.parentNode.parentNode.style.display=='block')
-        {
-          break;
-        }
-        else if (!focusItem) // last element
-        {
-          break;
-        }
-        focusItem=null;
-        index--;
+  // return the first item with index index or higher that is visible
+  this.NavNext = function(index) {
+    let focusItem;
+    for (;;) {
+      const focusName = 'Item'+index;
+      focusItem = document.getElementById(focusName);
+      if (focusItem && focusItem.parentNode.parentNode.style.display=='block') {
+        break;
+      } else if (!focusItem) { // last element
+        break;
+      }
+      focusItem=null;
+      index++;
+    }
+    return focusItem;
+  }
+
+  this.NavPrev = function(index) {
+    let focusItem;
+    for (;;) {
+      const focusName = 'Item'+index;
+      focusItem = document.getElementById(focusName);
+      if (focusItem && focusItem.parentNode.parentNode.style.display=='block') {
+        break;
+      } else if (!focusItem) { // last element
+        break;
       }
-      return focusItem;
+      focusItem=null;
+      index--;
     }
+    return focusItem;
+  }
 
-    this.ProcessKeys = function(e)
-    {
-      if (e.type == "keydown")
-      {
-        this.repeatOn = false;
-        this.lastKey = e.keyCode;
-      }
-      else if (e.type == "keypress")
-      {
-        if (!this.repeatOn)
-        {
-          if (this.lastKey) this.repeatOn = true;
-          return false; // ignore first keypress after keydown
-        }
-      }
-      else if (e.type == "keyup")
-      {
-        this.lastKey = 0;
-        this.repeatOn = false;
+  this.ProcessKeys = function(e) {
+    if (e.type == "keydown") {
+      this.repeatOn = false;
+      this.lastKey = e.keyCode;
+    } else if (e.type == "keypress") {
+      if (!this.repeatOn) {
+        if (this.lastKey) this.repeatOn = true;
+        return false; // ignore first keypress after keydown
       }
-      return this.lastKey!=0;
+    } else if (e.type == "keyup") {
+      this.lastKey = 0;
+      this.repeatOn = false;
     }
+    return this.lastKey!=0;
+  }
 
-    this.Nav = function(evt,itemIndex)
-    {
-      var e  = (evt) ? evt : window.event; // for IE
-      if (e.keyCode==13) return true;
-      if (!this.ProcessKeys(e)) return false;
-
-      if (this.lastKey==38) // Up
-      {
-        var newIndex = itemIndex-1;
-        var focusItem = this.NavPrev(newIndex);
-        if (focusItem)
-        {
-          var child = this.FindChildElement(focusItem.parentNode.parentNode.id);
-          if (child && child.style.display == 'block') // children visible
-          {
-            var n=0;
-            var tmpElem;
-            while (1) // search for last child
-            {
-              tmpElem = document.getElementById('Item'+newIndex+'_c'+n);
-              if (tmpElem)
-              {
-                focusItem = tmpElem;
-              }
-              else // found it!
-              {
-                break;
-              }
-              n++;
+  this.Nav = function(evt,itemIndex) {
+    const e  = (evt) ? evt : window.event; // for IE
+    if (e.keyCode==13) return true;
+    if (!this.ProcessKeys(e)) return false;
+
+    if (this.lastKey==38) { // Up
+      const newIndex = itemIndex-1;
+      let focusItem = this.NavPrev(newIndex);
+      if (focusItem) {
+        let child = this.FindChildElement(focusItem.parentNode.parentNode.id);
+        if (child && child.style.display == 'block') { // children visible
+          let n=0;
+          let tmpElem;
+          for (;;) { // search for last child
+            tmpElem = document.getElementById('Item'+newIndex+'_c'+n);
+            if (tmpElem) {
+              focusItem = tmpElem;
+            } else { // found it!
+              break;
             }
+            n++;
           }
         }
-        if (focusItem)
-        {
-          focusItem.focus();
-        }
-        else // return focus to search field
-        {
-           document.getElementById("MSearchField").focus();
-        }
-      }
-      else if (this.lastKey==40) // Down
-      {
-        var newIndex = itemIndex+1;
-        var focusItem;
-        var item = document.getElementById('Item'+itemIndex);
-        var elem = this.FindChildElement(item.parentNode.parentNode.id);
-        if (elem && elem.style.display == 'block') // children visible
-        {
-          focusItem = document.getElementById('Item'+itemIndex+'_c0');
-        }
-        if (!focusItem) focusItem = this.NavNext(newIndex);
-        if (focusItem)  focusItem.focus();
-      }
-      else if (this.lastKey==39) // Right
-      {
-        var item = document.getElementById('Item'+itemIndex);
-        var elem = this.FindChildElement(item.parentNode.parentNode.id);
-        if (elem) elem.style.display = 'block';
-      }
-      else if (this.lastKey==37) // Left
-      {
-        var item = document.getElementById('Item'+itemIndex);
-        var elem = this.FindChildElement(item.parentNode.parentNode.id);
-        if (elem) elem.style.display = 'none';
       }
-      else if (this.lastKey==27) // Escape
-      {
-        e.stopPropagation();
-        searchBox.CloseResultsWindow();
+      if (focusItem) {
+        focusItem.focus();
+      } else { // return focus to search field
         document.getElementById("MSearchField").focus();
       }
-      else if (this.lastKey==13) // Enter
-      {
-        return true;
-      }
-      return false;
+    } else if (this.lastKey==40) { // Down
+      const newIndex = itemIndex+1;
+      let focusItem;
+      const item = document.getElementById('Item'+itemIndex);
+      const elem = this.FindChildElement(item.parentNode.parentNode.id);
+      if (elem && elem.style.display == 'block') { // children visible
+        focusItem = document.getElementById('Item'+itemIndex+'_c0');
+      }
+      if (!focusItem) focusItem = this.NavNext(newIndex);
+      if (focusItem)  focusItem.focus();
+    } else if (this.lastKey==39) { // Right
+      const item = document.getElementById('Item'+itemIndex);
+      const elem = this.FindChildElement(item.parentNode.parentNode.id);
+      if (elem) elem.style.display = 'block';
+    } else if (this.lastKey==37) { // Left
+      const item = document.getElementById('Item'+itemIndex);
+      const elem = this.FindChildElement(item.parentNode.parentNode.id);
+      if (elem) elem.style.display = 'none';
+    } else if (this.lastKey==27) { // Escape
+      e.stopPropagation();
+      searchBox.CloseResultsWindow();
+      document.getElementById("MSearchField").focus();
+    } else if (this.lastKey==13) { // Enter
+      return true;
     }
+    return false;
+  }
 
-    this.NavChild = function(evt,itemIndex,childIndex)
-    {
-      var e  = (evt) ? evt : window.event; // for IE
-      if (e.keyCode==13) return true;
-      if (!this.ProcessKeys(e)) return false;
-
-      if (this.lastKey==38) // Up
-      {
-        if (childIndex>0)
-        {
-          var newIndex = childIndex-1;
-          document.getElementById('Item'+itemIndex+'_c'+newIndex).focus();
-        }
-        else // already at first child, jump to parent
-        {
-          document.getElementById('Item'+itemIndex).focus();
-        }
+  this.NavChild = function(evt,itemIndex,childIndex) {
+    const e  = (evt) ? evt : window.event; // for IE
+    if (e.keyCode==13) return true;
+    if (!this.ProcessKeys(e)) return false;
+
+    if (this.lastKey==38) { // Up
+      if (childIndex>0) {
+        const newIndex = childIndex-1;
+        document.getElementById('Item'+itemIndex+'_c'+newIndex).focus();
+      } else { // already at first child, jump to parent
+        document.getElementById('Item'+itemIndex).focus();
       }
-      else if (this.lastKey==40) // Down
-      {
-        var newIndex = childIndex+1;
-        var elem = document.getElementById('Item'+itemIndex+'_c'+newIndex);
-        if (!elem) // last child, jump to parent next parent
-        {
-          elem = this.NavNext(itemIndex+1);
-        }
-        if (elem)
-        {
-          elem.focus();
-        }
+    } else if (this.lastKey==40) { // Down
+      const newIndex = childIndex+1;
+      let elem = document.getElementById('Item'+itemIndex+'_c'+newIndex);
+      if (!elem) { // last child, jump to parent next parent
+        elem = this.NavNext(itemIndex+1);
       }
-      else if (this.lastKey==27) // Escape
-      {
-        e.stopPropagation();
-        searchBox.CloseResultsWindow();
-        document.getElementById("MSearchField").focus();
+      if (elem) {
+        elem.focus();
       }
-      else if (this.lastKey==13) // Enter
-      {
-        return true;
-      }
-      return false;
+    } else if (this.lastKey==27) { // Escape
+      e.stopPropagation();
+      searchBox.CloseResultsWindow();
+      document.getElementById("MSearchField").focus();
+    } else if (this.lastKey==13) { // Enter
+      return true;
     }
+    return false;
+  }
 }
 
-function setKeyActions(elem,action)
-{
-  elem.setAttribute('onkeydown',action);
-  elem.setAttribute('onkeypress',action);
-  elem.setAttribute('onkeyup',action);
-}
+function createResults(resultsPath) {
 
-function setClassAttr(elem,attr)
-{
-  elem.setAttribute('class',attr);
-  elem.setAttribute('className',attr);
-}
+  function setKeyActions(elem,action) {
+    elem.setAttribute('onkeydown',action);
+    elem.setAttribute('onkeypress',action);
+    elem.setAttribute('onkeyup',action);
+  }
+
+  function setClassAttr(elem,attr) {
+    elem.setAttribute('class',attr);
+    elem.setAttribute('className',attr);
+  }
 
-function createResults(resultsPath)
-{
-  var results = document.getElementById("SRResults");
+  const results = document.getElementById("SRResults");
   results.innerHTML = '';
-  for (var e=0; e<searchData.length; e++)
-  {
-    var id = searchData[e][0];
-    var srResult = document.createElement('div');
+  searchData.forEach((elem,index) => {
+    const id = elem[0];
+    const srResult = document.createElement('div');
     srResult.setAttribute('id','SR_'+id);
     setClassAttr(srResult,'SRResult');
-    var srEntry = document.createElement('div');
+    const srEntry = document.createElement('div');
     setClassAttr(srEntry,'SREntry');
-    var srLink = document.createElement('a');
-    srLink.setAttribute('id','Item'+e);
-    setKeyActions(srLink,'return searchResults.Nav(event,'+e+')');
+    const srLink = document.createElement('a');
+    srLink.setAttribute('id','Item'+index);
+    setKeyActions(srLink,'return searchResults.Nav(event,'+index+')');
     setClassAttr(srLink,'SRSymbol');
-    srLink.innerHTML = searchData[e][1][0];
+    srLink.innerHTML = elem[1][0];
     srEntry.appendChild(srLink);
-    if (searchData[e][1].length==2) // single result
-    {
-      srLink.setAttribute('href',resultsPath+searchData[e][1][1][0]);
+    if (elem[1].length==2) { // single result
+      srLink.setAttribute('href',resultsPath+elem[1][1][0]);
       srLink.setAttribute('onclick','searchBox.CloseResultsWindow()');
-      if (searchData[e][1][1][1])
-      {
+      if (elem[1][1][1]) {
        srLink.setAttribute('target','_parent');
-      }
-      else
-      {
+      } else {
        srLink.setAttribute('target','_blank');
       }
-      var srScope = document.createElement('span');
+      const srScope = document.createElement('span');
       setClassAttr(srScope,'SRScope');
-      srScope.innerHTML = searchData[e][1][1][2];
+      srScope.innerHTML = elem[1][1][2];
       srEntry.appendChild(srScope);
-    }
-    else // multiple results
-    {
+    } else { // multiple results
       srLink.setAttribute('href','javascript:searchResults.Toggle("SR_'+id+'")');
-      var srChildren = document.createElement('div');
+      const srChildren = document.createElement('div');
       setClassAttr(srChildren,'SRChildren');
-      for (var c=0; c<searchData[e][1].length-1; c++)
-      {
-        var srChild = document.createElement('a');
-        srChild.setAttribute('id','Item'+e+'_c'+c);
-        setKeyActions(srChild,'return searchResults.NavChild(event,'+e+','+c+')');
+      for (let c=0; c<elem[1].length-1; c++) {
+        const srChild = document.createElement('a');
+        srChild.setAttribute('id','Item'+index+'_c'+c);
+        setKeyActions(srChild,'return searchResults.NavChild(event,'+index+','+c+')');
         setClassAttr(srChild,'SRScope');
-        srChild.setAttribute('href',resultsPath+searchData[e][1][c+1][0]);
+        srChild.setAttribute('href',resultsPath+elem[1][c+1][0]);
         srChild.setAttribute('onclick','searchBox.CloseResultsWindow()');
-        if (searchData[e][1][c+1][1])
-        {
+        if (elem[1][c+1][1]) {
          srChild.setAttribute('target','_parent');
-        }
-        else
-        {
+        } else {
          srChild.setAttribute('target','_blank');
         }
-        srChild.innerHTML = searchData[e][1][c+1][2];
+        srChild.innerHTML = elem[1][c+1][2];
         srChildren.appendChild(srChild);
       }
       srEntry.appendChild(srChildren);
     }
     srResult.appendChild(srEntry);
     results.appendChild(srResult);
-  }
+  });
 }
 
-function init_search()
-{
-  var results = document.getElementById("MSearchSelectWindow");
+function init_search() {
+  const results = document.getElementById("MSearchSelectWindow");
+
   results.tabIndex=0;
-  for (var key in indexSectionLabels)
-  {
-    var link = document.createElement('a');
+  for (let key in indexSectionLabels) {
+    const link = document.createElement('a');
     link.setAttribute('class','SelectItem');
     link.setAttribute('onclick','searchBox.OnSelectItem('+key+')');
     link.href='javascript:void(0)';
     link.innerHTML='<span class="SelectionMark">&#160;</span>'+indexSectionLabels[key];
     results.appendChild(link);
   }
-  searchBox.OnSelectItem(0);
 
-  var input = document.getElementById("MSearchSelect");
-  var searchSelectWindow = document.getElementById("MSearchSelectWindow");
+  const input = document.getElementById("MSearchSelect");
+  const searchSelectWindow = document.getElementById("MSearchSelectWindow");
   input.tabIndex=0;
   input.addEventListener("keydown", function(event) {
     if (event.keyCode==13 || event.keyCode==40) {
@@ -836,5 +687,8 @@ function init_search()
       }
     }
   });
+  const name = Cookie.readSetting(SEARCH_COOKIE_NAME,0);
+  const id = searchBox.GetSelectionIdByName(name);
+  searchBox.OnSelectItem(id);
 }
 /* @license-end */
diff --git a/search/searchdata.js b/search/searchdata.js
index 5bde162dd..42de3201f 100644
--- a/search/searchdata.js
+++ b/search/searchdata.js
@@ -1,24 +1,45 @@
 var indexSectionsWithContent =
 {
-  0: "_cdefghijlmnopqstu",
-  1: "c",
-  2: "_deghijlnu",
-  3: "cdefijlmopqst"
+  0: "_abcdefghijklmnopqrstuvwxyz~",
+  1: "bcdefghilprstvw",
+  2: "fins",
+  3: "bcdefghijklmopqrstuv",
+  4: "_abcdefghijklmnopqrstuvwz~",
+  5: "abcdefghiklmnoprstuvwx",
+  6: "aceflnoptuv",
+  7: "ablpsu",
+  8: "bdfhimnpsvw",
+  9: "_acdfhijlmnpqstwxy",
+  10: "cdeijlmopqst"
 };
 
 var indexSectionNames =
 {
   0: "all",
   1: "classes",
-  2: "functions",
-  3: "groups"
+  2: "namespaces",
+  3: "files",
+  4: "functions",
+  5: "variables",
+  6: "typedefs",
+  7: "enums",
+  8: "enumvalues",
+  9: "defines",
+  10: "groups"
 };
 
 var indexSectionLabels =
 {
   0: "All",
   1: "Classes",
-  2: "Functions",
-  3: "Modules"
+  2: "Namespaces",
+  3: "Files",
+  4: "Functions",
+  5: "Variables",
+  6: "Typedefs",
+  7: "Enumerations",
+  8: "Enumerator",
+  9: "Macros",
+  10: "Modules"
 };
 
diff --git a/search/typedefs_0.js b/search/typedefs_0.js
new file mode 100644
index 000000000..6f3fec133
--- /dev/null
+++ b/search/typedefs_0.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['adjacencymatrix_0',['AdjacencyMatrix',['../topology__utils_8h.html#ada7183ec06808ddb73d8f1a65cd8f7ae',1,'topology_utils.h']]]
+];
diff --git a/search/typedefs_1.js b/search/typedefs_1.js
new file mode 100644
index 000000000..1d2479c85
--- /dev/null
+++ b/search/typedefs_1.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['cache_5fvec_5ft_0',['cache_vec_t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98',1,'cache_vec_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6394626e129b23b47a8e900179ea1a98',1,'cache_vec_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]]
+];
diff --git a/search/typedefs_2.js b/search/typedefs_2.js
new file mode 100644
index 000000000..9da04ccdb
--- /dev/null
+++ b/search/typedefs_2.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['enum_5fitem_0',['enum_item',['../namespacefbgemm__gpu.html#aef71de4120929d2410f5d766948f8eaf',1,'fbgemm_gpu']]],
+  ['enum_5fitems_1',['enum_items',['../namespacefbgemm__gpu.html#a5fdc84ce2202ea07eb2e865847bd8f34',1,'fbgemm_gpu']]],
+  ['enum_5fresult_2',['enum_result',['../namespacefbgemm__gpu.html#adbdc3251cbd2e995dfa31ffdf2c2df8e',1,'fbgemm_gpu']]]
+];
diff --git a/search/typedefs_3.js b/search/typedefs_3.js
new file mode 100644
index 000000000..6c485a03d
--- /dev/null
+++ b/search/typedefs_3.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['fint32_0',['fint32',['../namespacefbgemm__gpu.html#a4783bbd9753251a335f9f8fa2dd97c8c',1,'fbgemm_gpu']]]
+];
diff --git a/search/typedefs_4.js b/search/typedefs_4.js
new file mode 100644
index 000000000..7fa62e410
--- /dev/null
+++ b/search/typedefs_4.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['links_0',['Links',['../topology__utils_8h.html#a434a916b92f4caf48f14d480c6aa845a',1,'topology_utils.h']]]
+];
diff --git a/search/typedefs_5.js b/search/typedefs_5.js
new file mode 100644
index 000000000..7a66f1f15
--- /dev/null
+++ b/search/typedefs_5.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['node_0',['Node',['../topology__utils_8h.html#a659b93920c81116289ee7ff5d45f48c9',1,'topology_utils.h']]]
+];
diff --git a/search/typedefs_6.js b/search/typedefs_6.js
new file mode 100644
index 000000000..334eba0bf
--- /dev/null
+++ b/search/typedefs_6.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['output_5fvec_5ft_0',['output_vec_t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d',1,'output_vec_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a46b036c211c222352709e6bb2420878d',1,'output_vec_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]]
+];
diff --git a/search/typedefs_7.js b/search/typedefs_7.js
new file mode 100644
index 000000000..d797ef312
--- /dev/null
+++ b/search/typedefs_7.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['packedtensoraccessor32_0',['PackedTensorAccessor32',['../namespacefbgemm__gpu.html#a64ee5a7e6df3a95f1d4bdd9f38707c96',1,'fbgemm_gpu']]],
+  ['packedtensoraccessor64_1',['PackedTensorAccessor64',['../namespacefbgemm__gpu.html#a69b304f75455a9eb7144259c09770877',1,'fbgemm_gpu']]],
+  ['ptrtype_2',['PtrType',['../structfbgemm__gpu_1_1_default_ptr_traits.html#a931c4685c69254a5749f79cdb56ec814',1,'fbgemm_gpu::DefaultPtrTraits::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessorBase::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessor::PtrType'],['../classfbgemm__gpu_1_1_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::TensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessor::PtrType'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_3_01_t_00_011_00_01_ptr_traits_00_01index__t_01_4.html#ade0d5b5196750e3a6fd1a8f88c665eb4',1,'fbgemm_gpu::GenericPackedTensorAccessor&lt; T, 1, PtrTraits, index_t &gt;::PtrType']]]
+];
diff --git a/search/typedefs_8.js b/search/typedefs_8.js
new file mode 100644
index 000000000..a28751dbd
--- /dev/null
+++ b/search/typedefs_8.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['tensor_0',['Tensor',['../gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_codegen_cuda.cu'],['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_codegen_cuda.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_cpu.cpp'],['../gen__embedding__backward__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__dense__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_cpu.cpp'],['../gen__embedding__backward__dense__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_cuda.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_cuda.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_cuda.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_cpu.cpp'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_cpu.cpp'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_cuda.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_cpu.cpp'],['../gen__embedding__backward__sgd__split__unweighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_cuda.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__split__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adagrad.cpp'],['../gen__embedding__backward__split__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adagrad_cpu.cpp'],['../gen__embedding__backward__split__adam_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adam.cpp'],['../gen__embedding__backward__split__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_adam_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_counter_cpu.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__approx__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_rowwise_adagrad_with_weight_decay_cpu.cpp'],['../gen__embedding__backward__split__approx__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_sgd.cpp'],['../gen__embedding__backward__split__approx__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_approx_sgd_cpu.cpp'],['../gen__embedding__backward__split__grad_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__backward__split__indice__weights__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_indice_weights_codegen_cuda.cu'],['../gen__embedding__backward__split__lamb_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lamb.cpp'],['../gen__embedding__backward__split__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lamb_cpu.cpp'],['../gen__embedding__backward__split__lars__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lars_sgd.cpp'],['../gen__embedding__backward__split__lars__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_lars_sgd_cpu.cpp'],['../gen__embedding__backward__split__none_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_none.cpp'],['../gen__embedding__backward__split__none__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_none_cpu.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_adam.cpp'],['../gen__embedding__backward__split__partial__rowwise__adam__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_adam_cpu.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_lamb.cpp'],['../gen__embedding__backward__split__partial__rowwise__lamb__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_partial_rowwise_lamb_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__counter__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_counter_cpu.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay.cpp'],['../gen__embedding__backward__split__rowwise__adagrad__with__weight__decay__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_adagrad_with_weight_decay_cpu.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_weighted_adagrad.cpp'],['../gen__embedding__backward__split__rowwise__weighted__adagrad__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_rowwise_weighted_adagrad_cpu.cpp'],['../gen__embedding__backward__split__sgd_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_sgd.cpp'],['../gen__embedding__backward__split__sgd__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_backward_split_sgd_cpu.cpp'],['../gen__embedding__forward__dense__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_codegen_cuda.cu'],['../gen__embedding__forward__dense__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_codegen_meta.cpp'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__unweighted__nobag__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_unweighted_nobag_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__host__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_host_weighted_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_int8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__unweighted__nobag__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_unweighted_nobag_int8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp16__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp16_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp32__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp32_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__fp8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_fp8_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int2__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int2_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int4__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int4_codegen_cuda.cu'],['../gen__embedding__forward__quantized__split__nbit__kernel__weighted__int8__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_quantized_split_nbit_kernel_weighted_int8_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_codegen_meta.cpp'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_optimizer_rowwise_adagrad_split.cpp'],['../gen__embedding__optimizer__rowwise__adagrad__split__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;gen_embedding_optimizer_rowwise_adagrad_split_cuda.cu'],['../batch__index__select__dim0__cpu__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batch_index_select_dim0_cpu_host.cpp'],['../batch__index__select__dim0__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batch_index_select_dim0_host.cpp'],['../embedding__backward__dense__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_dense_host.cpp'],['../embedding__backward__dense__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_dense_host_cpu.cpp'],['../embedding__backward__split__cpu__approx__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_cpu_approx_template.cpp'],['../embedding__backward__split__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_cpu_template.cpp'],['../embedding__backward__split__grad__template_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_grad_template.cu'],['../embedding__backward__split__host__cpu__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_host_cpu_template.cpp'],['../embedding__backward__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_backward_split_host_template.cpp'],['../embedding__bounds__check_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check.cu'],['../embedding__bounds__check__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check_host.cpp'],['../embedding__bounds__check__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_bounds_check_host_cpu.cpp'],['../embedding__forward__quantized__host_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_host.cpp'],['../embedding__forward__quantized__host__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_host_cpu.cpp'],['../embedding__forward__quantized__split__lookup_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_quantized_split_lookup.cu'],['../embedding__forward__quantized__split__nbit__host__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f',1,'Tensor:&#160;embedding_forward_quantized_split_nbit_host_template.cu'],['../embedding__forward__quantized__split__nbit__kernel__template_8cu.html#a1c03911dcc4fa0b0d2819531e1148a4f',1,'Tensor:&#160;embedding_forward_quantized_split_nbit_kernel_template.cu'],['../embedding__forward__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_forward_split_cpu.cpp'],['../embedding__forward__split__meta__template_8cpp.html#abd5e6ae11c42b2e53f1da6fa1f4646ed',1,'Tensor:&#160;embedding_forward_split_meta_template.cpp'],['../embedding__optimizer__split__host__template_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_optimizer_split_host_template.cpp'],['../embedding__optimizer__split__template_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_optimizer_split_template.cu'],['../namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f',1,'fbgemm_gpu::Tensor'],['../embedding__inplace__update_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update.h'],['../embedding__inplace__update_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update.cu'],['../embedding__inplace__update__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;embedding_inplace_update_cpu.cpp'],['../histogram__binning__calibration__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;histogram_binning_calibration_ops.cu'],['../input__combine_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine.cu'],['../input__combine__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine_cpu.cpp'],['../input__combine__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;input_combine_gpu.cpp'],['../batched__dense__vec__jagged__2d__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batched_dense_vec_jagged_2d_mul_backward.cu'],['../batched__dense__vec__jagged__2d__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;batched_dense_vec_jagged_2d_mul_forward.cu'],['../dense__to__jagged__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;dense_to_jagged_forward.cu'],['../jagged__dense__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_bmm_forward.cu'],['../jagged__dense__dense__elementwise__add__jagged__output__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_dense_elementwise_add_jagged_output_forward.cu'],['../jagged__dense__elementwise__mul__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_elementwise_mul_backward.cu'],['../jagged__dense__elementwise__mul__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_dense_elementwise_mul_forward.cu'],['../jagged__index__add__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_index_add_2d_forward.cu'],['../jagged__index__select__2d__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_index_select_2d_forward.cu'],['../jagged__jagged__bmm__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_jagged_bmm_forward.cu'],['../jagged__softmax__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_softmax_backward.cu'],['../jagged__softmax__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_softmax_forward.cu'],['../jagged__to__padded__dense__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_to_padded_dense_backward.cu'],['../jagged__to__padded__dense__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_to_padded_dense_forward.cu'],['../jagged__unique__indices_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;jagged_unique_indices.cu'],['../keyed__jagged__index__select__dim1_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;keyed_jagged_index_select_dim1.cu'],['../layout__transform__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;layout_transform_ops.cu'],['../layout__transform__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;layout_transform_ops_cpu.cpp'],['../memory__utils_2common_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.h'],['../memory__utils_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils.cpp'],['../memory__utils__ops_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils_ops.cpp'],['../memory__utils__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;memory_utils_ops_cpu.cpp'],['../merge__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;merge_pooled_embedding_ops_cpu.cpp'],['../merge__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;merge_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__function_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_function.cpp'],['../permute__pooled__embedding__ops_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops.cu'],['../permute__pooled__embedding__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_cpu.cpp'],['../permute__pooled__embedding__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_gpu.cpp'],['../permute__pooled__embedding__ops__split_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split.cu'],['../permute__pooled__embedding__ops__split__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split_cpu.cpp'],['../permute__pooled__embedding__ops__split__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;permute_pooled_embedding_ops_split_gpu.cpp'],['../quantize__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../quantize__bfloat16_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_bfloat16.cu'],['../quantize__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fp8_rowwise.cu'],['../quantize__fused__8bit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fused_8bit_rowwise.cu'],['../quantize__fused__nbit__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_fused_nbit_rowwise.cu'],['../quantize__hfp8_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_hfp8.cu'],['../quantize__msfp_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_msfp.cu'],['../quantize__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_ops_cpu.cpp'],['../quantize__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_ops_meta.cpp'],['../quantize__padded__fp8__rowwise_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;quantize_padded_fp8_rowwise.cu'],['../sparse__ops_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../sparse__async__cumsum_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_async_cumsum.cu'],['../sparse__batched__unary__embeddings_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_batched_unary_embeddings.cu'],['../sparse__block__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_block_bucketize_features.cu'],['../sparse__bucketize__features_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_bucketize_features.cu'],['../sparse__compute__frequency__sequence_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_compute_frequency_sequence.cu'],['../sparse__expand__into__jagged__permute_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_expand_into_jagged_permute.cu'],['../sparse__group__index_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_group_index.cu'],['../sparse__index__add_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_index_add.cu'],['../sparse__index__select_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_index_select.cu'],['../sparse__invert__permute_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_invert_permute.cu'],['../sparse__ops__cpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_cpu.cpp'],['../sparse__ops__gpu_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_gpu.cpp'],['../sparse__ops__meta_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_ops_meta.cpp'],['../sparse__pack__segments__backward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_pack_segments_backward.cu'],['../sparse__pack__segments__forward_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_pack_segments_forward.cu'],['../sparse__permute102_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute102.cu'],['../sparse__permute__1d_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_1d.cu'],['../sparse__permute__2d_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_2d.cu'],['../sparse__permute__embeddings_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_permute_embeddings.cu'],['../sparse__range_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_range.cu'],['../sparse__reorder__batched__ad_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_reorder_batched_ad.cu'],['../sparse__segment__sum__csr_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_segment_sum_csr.cu'],['../sparse__zipf_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;sparse_zipf.cu'],['../split__embeddings__cache_2common_8cuh.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.cuh'],['../split__embeddings__cache_2common_8h.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;common.h'],['../lfu__cache__find_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_find.cu'],['../lfu__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate.cu'],['../lfu__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate_byte.cpp'],['../lfu__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lfu_cache_populate_byte.cu'],['../linearize__cache__indices_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;linearize_cache_indices.cpp'],['../linearize__cache__indices_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;linearize_cache_indices.cu'],['../lru__cache__find_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_find.cu'],['../lru__cache__populate_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate.cu'],['../lru__cache__populate__byte_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate_byte.cpp'],['../lru__cache__populate__byte_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lru_cache_populate_byte.cu'],['../lxu__cache_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lxu_cache.cpp'],['../lxu__cache_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;lxu_cache.cu'],['../reset__weight__momentum_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;reset_weight_momentum.cu'],['../generate__vbe__metadata_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;generate_vbe_metadata.cu'],['../get__infos__metadata_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;get_infos_metadata.cu'],['../radix__sort__pairs_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;radix_sort_pairs.cu'],['../split__embeddings__utils_8cpp.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;split_embeddings_utils.cpp'],['../transpose__embedding__input_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;transpose_embedding_input.cu'],['../ssd__split__embeddings__cache__cuda_8cu.html#abc1167888f441327c12e300780ee568a',1,'Tensor:&#160;ssd_split_embeddings_cache_cuda.cu']]],
+  ['type_1',['type',['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type'],['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type'],['../struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e',1,'Vec4Type&lt; float &gt;::type'],['../struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02',1,'Vec4Type&lt; at::Half &gt;::type'],['../struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad',1,'Vec4Type&lt; uint8_t &gt;::type']]]
+];
diff --git a/search/typedefs_9.js b/search/typedefs_9.js
new file mode 100644
index 000000000..568280ec7
--- /dev/null
+++ b/search/typedefs_9.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['uoffset_5ft_0',['uoffset_t',['../namespacefbgemm__gpu.html#ae8406b85b19117866badffef9481f3e2',1,'fbgemm_gpu']]]
+];
diff --git a/search/typedefs_a.js b/search/typedefs_a.js
new file mode 100644
index 000000000..44afa74b1
--- /dev/null
+++ b/search/typedefs_a.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['vec4_5ftype_0',['vec4_type',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#a58da2e6e124bd5725ddbf144b36921f5',1,'vec4_type:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/variables_0.js b/search/variables_0.js
new file mode 100644
index 000000000..f2cfd4ddd
--- /dev/null
+++ b/search/variables_0.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['a_0',['a',['../structfbgemm__gpu_1_1_half4.html#a27075551b75deec4b6f30d368075d852',1,'fbgemm_gpu::Half4::a'],['../structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html#a943da41846f7804fa8edd8b012551545',1,'fbgemm_gpu::StochasticRoundingRNGState::a']]],
+  ['acc_1',['acc',['../structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; float &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; at::Half &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::Vec4T&lt; at::BFloat16 &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#accb1990c79cc9a9c3ca84d635d589ca4',1,'fbgemm_gpu::Vec4T&lt; double &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ae7a59aea3ae02e7c3c40b93e77208b3a',1,'fbgemm_gpu::VecNT&lt; 1, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af835160660d81c33fb2f1f42017452fb',1,'fbgemm_gpu::VecNT&lt; 2, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::FP &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6',1,'fbgemm_gpu::VecNT&lt; 4, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a17543b514b8298a1e94b5671db506366',1,'fbgemm_gpu::VecNT&lt; 8, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f332e6824c0bf94b367c027c6c91595',1,'fbgemm_gpu::VecNT&lt; 16, PrimitiveType::INT &gt;::acc'],['../structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345',1,'fbgemm_gpu::Vec4AccT::acc']]]
+];
diff --git a/search/variables_1.js b/search/variables_1.js
new file mode 100644
index 000000000..7c995f281
--- /dev/null
+++ b/search/variables_1.js
@@ -0,0 +1,18 @@
+var searchData=
+[
+  ['b_0',['b',['../structfbgemm__gpu_1_1_half4.html#a85c654c77d6c3fc7709e8dd1e7ec4a5e',1,'fbgemm_gpu::Half4']]],
+  ['b_1',['B',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8',1,'B:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a240b4e029c521f922d447346c8b757b8',1,'B:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ad0a8e9e782f3a3f177d6791f9ee9b866',1,'B:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#adb51b4975da6fe6cd1f6465b56b3b8ab',1,'fbgemm_gpu::B']]],
+  ['b_2',['b',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6',1,'b:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a83bdb6901e840002ec04521cd2fcafe6',1,'b:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#ab540864a8f4d5cfb95d168df6ff1ac51',1,'fbgemm_gpu::b']]],
+  ['batch_5fsize_3',['batch_size',['../namespacefbgemm__gpu.html#add6df347839b36aa580f997fddaebf86',1,'fbgemm_gpu']]],
+  ['batch_5fsize_5foffsets_4',['batch_size_offsets',['../namespacefbgemm__gpu.html#afba1f0bf46d421e1e2834949792290e0',1,'fbgemm_gpu']]],
+  ['batch_5fsize_5fper_5ffeature_5',['batch_size_per_feature',['../namespacefbgemm__gpu.html#a34cfcac7aff478aac7e03c48a25b0447',1,'fbgemm_gpu']]],
+  ['bin_5fboundaries_6',['bin_boundaries',['../namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970',1,'fbgemm_gpu']]],
+  ['bin_5fctr_5fin_5fuse_5fafter_7',['bin_ctr_in_use_after',['../namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a',1,'fbgemm_gpu']]],
+  ['bin_5fctr_5fweight_5fvalue_8',['bin_ctr_weight_value',['../namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd',1,'fbgemm_gpu']]],
+  ['bin_5fids_5fdata_9',['bin_ids_data',['../namespacefbgemm__gpu.html#a24c7d1d72baa0efece963a4ed4db9c17',1,'fbgemm_gpu']]],
+  ['bin_5fnum_5fexamples_5fdata_10',['bin_num_examples_data',['../namespacefbgemm__gpu.html#ad09ae93c92bfe0fe061460cfe4acd611',1,'fbgemm_gpu']]],
+  ['bin_5fnum_5fpositives_5fdata_11',['bin_num_positives_data',['../namespacefbgemm__gpu.html#a6cf3109a8de0f8ef7a818474a2fec845',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fpos_5fconcat_12',['block_bucketize_pos_concat',['../namespacefbgemm__gpu.html#acc943f4a5b9448babdf4b36ff9095dff',1,'fbgemm_gpu']]],
+  ['block_5fbucketize_5fpos_5foffsets_13',['block_bucketize_pos_offsets',['../namespacefbgemm__gpu.html#a7caa87d119b6ee26ae8fe2b66671215c',1,'fbgemm_gpu']]],
+  ['block_5fsizes_5fdata_14',['block_sizes_data',['../namespacefbgemm__gpu.html#ab2cdb48bca4ebe95f2cdeedea09f549f',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_10.js b/search/variables_10.js
new file mode 100644
index 000000000..e96c757f5
--- /dev/null
+++ b/search/variables_10.js
@@ -0,0 +1,33 @@
+var searchData=
+[
+  ['saved_5fparams_5fcnt_0',['SAVED_PARAMS_CNT',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89',1,'SAVED_PARAMS_CNT:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a777533551368ab4bfca5c1c8083e3e89',1,'SAVED_PARAMS_CNT:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['seg_5fend_1',['seg_end',['../namespacefbgemm__gpu.html#a4311f4976e51399caed297d2cad3bfd3',1,'fbgemm_gpu']]],
+  ['seg_5fstart_2',['seg_start',['../namespacefbgemm__gpu.html#adc735e446799084e3d27da58cf5807c3',1,'fbgemm_gpu']]],
+  ['segment_5fend_3',['segment_end',['../namespacefbgemm__gpu.html#a00965ae9e18f8292077b81d9040515c0',1,'fbgemm_gpu']]],
+  ['segment_5foffsets_5fdata_4',['segment_offsets_data',['../namespacefbgemm__gpu.html#a091bd2259a1e959d0052ad2fa399065f',1,'fbgemm_gpu']]],
+  ['segment_5fstart_5',['segment_start',['../namespacefbgemm__gpu.html#aa58de74ea57ed45322b04e829cb75d9b',1,'fbgemm_gpu']]],
+  ['segment_5fvalue_5fdata_6',['segment_value_data',['../namespacefbgemm__gpu.html#ac49066d09ce07fcb75c1f913da32b626',1,'fbgemm_gpu']]],
+  ['sizes_5f_7',['sizes_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a3665ab1adc4a5618fa5e22e00ff0e848',1,'fbgemm_gpu::TensorAccessorBase::sizes_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#ac2dd270bd9c520d7599dbc5626642cd9',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::sizes_']]],
+  ['sl_8',['SL',['../namespacefbgemm__gpu.html#a4478543eef2b1a98a328e4c634b5f6ad',1,'fbgemm_gpu']]],
+  ['smem_9',['smem',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce',1,'smem:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a843d0aea30f5cc9663eb720c3dd003ce',1,'smem:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['sorted_5finfos_10',['sorted_infos',['../namespacefbgemm__gpu.html#a89d9dff100cfa1f022fcfbf61e2500cc',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5fcumulative_5frun_5flengths_11',['sorted_linear_indices_cumulative_run_lengths',['../namespacefbgemm__gpu.html#ae6972dc3932ca715765452e39f97f21b',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5fnum_5fruns_12',['sorted_linear_indices_num_runs',['../namespacefbgemm__gpu.html#a9531de3506c1c1753051c949613ee1b5',1,'fbgemm_gpu']]],
+  ['sorted_5flinear_5findices_5frun_13',['sorted_linear_indices_run',['../namespacefbgemm__gpu.html#a30d761b81b0e05f95a7a118a17d6c4a2',1,'fbgemm_gpu']]],
+  ['sorted_5flxu_5fcache_5flocations_14',['sorted_lxu_cache_locations',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a219575ab5da90e4fa43bbb6df6e7831b',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['split_5fembedding_15',['split_embedding',['../embedding__backward__split__host__template_8cpp.html#a099fcb1910d50cb2f7bcfd36966c67f3',1,'embedding_backward_split_host_template.cpp']]],
+  ['split_5fembedding_5f_16',['split_embedding_',['../embedding__optimizer__split__host__template_8cpp.html#a043dbacfe97bbbca3dfe0675f0073939',1,'embedding_optimizer_split_host_template.cpp']]],
+  ['src_5fidx_17',['src_idx',['../namespacefbgemm__gpu.html#a119724f55ff744b85a20a870b5da4152',1,'fbgemm_gpu']]],
+  ['start_5finput_18',['start_input',['../namespacefbgemm__gpu.html#abb9cbb13307ba09bfd2a13ca7abbb19b',1,'fbgemm_gpu']]],
+  ['step_19',['step',['../namespacefbgemm__gpu.html#a17e8d602b1d99905e55e6b875dc306b5',1,'fbgemm_gpu']]],
+  ['step_20',['STEP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5',1,'STEP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5',1,'STEP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['stoc_5frounding_5fstate_5f_21',['stoc_rounding_state_',['../structfbgemm__gpu_1_1_weight_row.html#a666e6a66f2ff524d7dd4339ee8efc9d2',1,'fbgemm_gpu::WeightRow']]],
+  ['stochastic_5frounding_22',['stochastic_rounding',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['stochastic_5frounding_5fphilox_5fargs_23',['stochastic_rounding_philox_args',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afff795d859ebc4c98b059d7e04dd8ebd',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['stop_5f_24',['stop_',['../classssd_1_1_initializer.html#ae1a1eeaa4661c67f8e75985160abf62a',1,'ssd::Initializer']]],
+  ['storage_5f_25',['storage_',['../memory__utils_8cu.html#a1aaf192027acf281933c714c085e6849',1,'memory_utils.cu']]],
+  ['stride_26',['stride',['../namespacefbgemm__gpu.html#a85f38ec0d4f8474b6d4ccad168974cf9',1,'fbgemm_gpu']]],
+  ['strides_5f_27',['strides_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a44a19ea7efb719bdd2baac00add90d40',1,'fbgemm_gpu::TensorAccessorBase::strides_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a20a855fc09b0bad6cc73895d2bd48bea',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::strides_']]],
+  ['sum_28',['sum',['../namespacefbgemm__gpu.html#adb83758639b252f212d790847ca2f6b6',1,'fbgemm_gpu']]],
+  ['sum_5fe_29',['sum_E',['../namespacefbgemm__gpu.html#aba761028ac72c20c7defaef09de61d95',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_11.js b/search/variables_11.js
new file mode 100644
index 000000000..ea1a61883
--- /dev/null
+++ b/search/variables_11.js
@@ -0,0 +1,13 @@
+var searchData=
+[
+  ['t_0',['t',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9',1,'t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a886f5e3baf03935340ae10c910916eb9',1,'t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#aa80cbea4714c980d14626fd87c9287a4',1,'fbgemm_gpu::t']]],
+  ['t_1',['T',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64',1,'T:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64',1,'T:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#abb3518c2e8a95fe2496d295fe14b91df',1,'T:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15',1,'fbgemm_gpu::T']]],
+  ['table_5foffset_2',['table_offset',['../namespacefbgemm__gpu.html#a242d5a911279d9ad2128346af039383f',1,'fbgemm_gpu']]],
+  ['table_5foffsets_3',['table_offsets',['../namespacefbgemm__gpu.html#a114a2ddecfbdbb209bc791977fcb1c0e',1,'fbgemm_gpu']]],
+  ['table_5fwarp_5fid_4',['table_warp_id',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff',1,'table_warp_id:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a557e928f55b7bdfe7824b6ddd0fcfbff',1,'table_warp_id:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['temp_5fstorage_5',['temp_storage',['../namespacefbgemm__gpu.html#ad0fce99009259dbc5e5c0527eb5b3f64',1,'fbgemm_gpu']]],
+  ['total_5fl_6',['total_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528',1,'total_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aecbb8e032512c651d4a4d6c76c201528',1,'total_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['total_5fl_5foffsets_7',['total_L_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aa162b310777fc83fbde6ed5d0d35df4c',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['total_5fload_5fd_8',['total_load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730',1,'total_load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a52ea0aaf4b80b614a42c9d62c2b17730',1,'total_load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['true_9',['true',['../gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a',1,'true:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]]
+];
diff --git a/search/variables_12.js b/search/variables_12.js
new file mode 100644
index 000000000..015f2459a
--- /dev/null
+++ b/search/variables_12.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['uint32_5ft_0',['uint32_t',['../gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad',1,'gen_embedding_backward_split_grad.cu']]],
+  ['uint8_5ft_1',['uint8_t',['../gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#a1360e7840ee58417b26bf9445f94c59d',1,'nbit::uint8_t'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d',1,'uint8_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]],
+  ['unbucketize_5fpermute_5fdata_2',['unbucketize_permute_data',['../namespacefbgemm__gpu.html#aa403c596f919b42af361fc6554cce9e0',1,'fbgemm_gpu']]],
+  ['uncalibrated_3',['uncalibrated',['../namespacefbgemm__gpu.html#a7b13aa0c4501d0593484a73afe8786c2',1,'fbgemm_gpu']]],
+  ['use_5flxu_5fcache_4',['use_lxu_cache',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e',1,'use_lxu_cache:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aa7b80f1189d1874ab861378ed299a21e',1,'use_lxu_cache:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['uvm_5fweights_5',['uvm_weights',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a45c4a9176e8f636d292288647fdeff77',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a653cbc621a5959ad8f3951a92154c616',1,'uvm_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a77d267b92511473228e629909dcb8a07',1,'uvm_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a02abd4b4f2f2745d8c6e8c696d70c025',1,'uvm_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]]
+];
diff --git a/search/variables_13.js b/search/variables_13.js
new file mode 100644
index 000000000..570c290c4
--- /dev/null
+++ b/search/variables_13.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['val_0',['val',['../bench__utils_8cuh.html#a0f88d66987f307f00e5868889c52df87',1,'val:&#160;bench_utils.cuh'],['../jagged__tensor__ops_2common_8cuh.html#a34f893695235597b772faca329b14963',1,'val:&#160;common.cuh']]],
+  ['vals_1',['vals',['../struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3',1,'StackArray']]],
+  ['values_5fdata_2',['values_data',['../namespacefbgemm__gpu.html#af7acf47e01ed08917ef22330aaa8f95d',1,'fbgemm_gpu']]],
+  ['vec_5fcopy_5fwith_5fimplicit_5ftype_5fcast_3c_20int64_5ft_2c_20int32_5ft_2c_20vec_5fwidth_20_3e_3',['vec_copy_with_implicit_type_cast&lt; int64_t, int32_t, VEC_WIDTH &gt;',['../namespacefbgemm__gpu.html#a6b717a692f34f1bc7afb9eec6d5f9a2e',1,'fbgemm_gpu']]],
+  ['vec_5fwidth_4',['VEC_WIDTH',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#af57bf37dbd6a53004f468edeb5020860',1,'VEC_WIDTH:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/variables_14.js b/search/variables_14.js
new file mode 100644
index 000000000..3f3a3d6d0
--- /dev/null
+++ b/search/variables_14.js
@@ -0,0 +1,12 @@
+var searchData=
+[
+  ['warp_5fid_0',['warp_id',['../namespacefbgemm__gpu.html#a039dca4bc32e9ad20122b5855542e292',1,'fbgemm_gpu']]],
+  ['warp_5foffsets_5fgroup_1',['warp_offsets_group',['../namespacefbgemm__gpu.html#aecfb31f7c9583dd16ed7463ad8328db4',1,'fbgemm_gpu']]],
+  ['weight_2',['weight',['../namespacefbgemm__gpu.html#ab1426ad1956909abff1b26d04575767a',1,'fbgemm_gpu']]],
+  ['weight_5fdecay_3',['weight_decay',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a55c90ffc934511c5239912ee28729c08',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weight_5fdecay_5fmode_4',['weight_decay_mode',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a29382d4f16f27e176ace0d7a6c14bedd',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weights_5',['weights',['../structinternal_1_1_hyper_compressed_sparse_column.html#a210dc23584593727ddf26671264aa16a',1,'internal::HyperCompressedSparseColumn::weights'],['../namespacefbgemm__gpu.html#adc8829ea4c8f30f6aaef00680ba3754a',1,'fbgemm_gpu::weights']]],
+  ['weights_5fdata_6',['weights_data',['../namespacefbgemm__gpu.html#a1148e12a9142c43e97064ffe24a0aa63',1,'fbgemm_gpu']]],
+  ['weights_5foffsets_7',['weights_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299',1,'weights_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a8952c1fa3b8169bec4e9aa6f07ce2271',1,'weights_offsets:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a7d1fc13d818566d961fdf0fd44612dbb',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a9af84081fe94d1658365400ffcb263bc',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a9f15527d585dd62a23511c2f0bad4ca7',1,'weights_offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#aba904c170660e349edfb178490ec1ec1',1,'weights_offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a68c2c016f330babab668514e78cb3bf1',1,'weights_offsets:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['weights_5fplacements_8',['weights_placements',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#ad4dd9cc51f1eccdf4626318632701868',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a9a841e0386a10dcd6aa2fce96a7880b8',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#af6ffac73b54018941c14b57180e69abd',1,'weights_placements:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5aa4ec0a3620e915289c174bc6ce3108',1,'weights_placements:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a9987071f2ac942c5d6c47d628b971738',1,'weights_placements:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]]
+];
diff --git a/search/variables_15.js b/search/variables_15.js
new file mode 100644
index 000000000..e60f585a9
--- /dev/null
+++ b/search/variables_15.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['xor128_0',['xor128',['../structfbgemm__gpu_1_1rk__state.html#a257f1349dcd98722e373947808b773c6',1,'fbgemm_gpu::rk_state']]]
+];
diff --git a/search/variables_2.js b/search/variables_2.js
new file mode 100644
index 000000000..6b96972ac
--- /dev/null
+++ b/search/variables_2.js
@@ -0,0 +1,17 @@
+var searchData=
+[
+  ['cache_5frow_5f_0',['cache_row_',['../structfbgemm__gpu_1_1_weight_row.html#a8ba350d1da8749a0975ab4c1f645de70',1,'fbgemm_gpu::WeightRow']]],
+  ['calibrated_5fprediction_5fdata_1',['calibrated_prediction_data',['../namespacefbgemm__gpu.html#a5a04eca282d6278fd065294a91065404',1,'fbgemm_gpu']]],
+  ['column_5fsegment_5fids_2',['column_segment_ids',['../structinternal_1_1_hyper_compressed_sparse_column.html#a1e60e73bdb48b0daa00b9f6caa8c6728',1,'internal::HyperCompressedSparseColumn']]],
+  ['column_5fsegment_5findices_3',['column_segment_indices',['../structinternal_1_1_hyper_compressed_sparse_column.html#ad90d05e46d82122e7688be758b7cb43a',1,'internal::HyperCompressedSparseColumn']]],
+  ['column_5fsegment_5fptr_4',['column_segment_ptr',['../structinternal_1_1_hyper_compressed_sparse_column.html#ad1d5cb09cff5c55cbb74931bc58d8080',1,'internal::HyperCompressedSparseColumn']]],
+  ['combined_5flengths_5',['combined_lengths',['../namespacefbgemm__gpu.html#a176c2b8769558803ba0614bc04b7995f',1,'fbgemm_gpu']]],
+  ['combined_5fweights_6',['combined_weights',['../namespacefbgemm__gpu.html#a426e281c9c2dd29c0abe399f17ba8d6f',1,'fbgemm_gpu']]],
+  ['consumer_5fqueue_5f_7',['consumer_queue_',['../classssd_1_1_initializer.html#a794bafa095540403ada855b817d1d367',1,'ssd::Initializer']]],
+  ['csr_5fseg_5fdata_8',['csr_seg_data',['../namespacefbgemm__gpu.html#a0523b0079ced4e8a092ec1f3e5b5a193',1,'fbgemm_gpu']]],
+  ['cuda_5fdevice_5f_9',['cuda_device_',['../memory__utils_8cu.html#a96208d96b413317e110ff94d64c71ef4',1,'memory_utils.cu']]],
+  ['curr_5fbin_5fid_10',['curr_bin_id',['../namespacefbgemm__gpu.html#aa80c593013706e17927a0cedd1d6dbb0',1,'fbgemm_gpu']]],
+  ['curr_5fbin_5fnum_5fexamples_11',['curr_bin_num_examples',['../namespacefbgemm__gpu.html#afce91df3fd14c65d1d464b891004b1da',1,'fbgemm_gpu']]],
+  ['curr_5foffset_12',['curr_offset',['../namespacefbgemm__gpu.html#a5774000010ec731b390787b3b5f72868',1,'fbgemm_gpu']]],
+  ['curr_5fsegment_5fvalue_13',['curr_segment_value',['../namespacefbgemm__gpu.html#a216663a22f5311b9ecf7c9bc64ee047d',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_3.js b/search/variables_3.js
new file mode 100644
index 000000000..fc7faec85
--- /dev/null
+++ b/search/variables_3.js
@@ -0,0 +1,16 @@
+var searchData=
+[
+  ['d_0',['D',['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9',1,'D:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a952bac18af6443873547ada58c1e9f82',1,'D:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu']]],
+  ['d_5fflush2_1',['d_flush2',['../bench__utils_8cuh.html#a33347a1447f1a3618e698f9d5914c253',1,'bench_utils.cuh']]],
+  ['d_5foffsets_2',['D_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73',1,'D_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1e9016830b84a13779c14bb73acce5b1',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a723eb6856253bb4551265a356dd5f35d',1,'D_offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a1cf44edc754c1d53c702015bfb974d77',1,'D_offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['d_5fstart_3',['D_start',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c',1,'D_start:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aede9588b11147ebb6a17d9672563737c',1,'D_start:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['data_4',['data',['../jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31',1,'common.cuh']]],
+  ['data_5f_5',['data_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069',1,'fbgemm_gpu::TensorAccessorBase::data_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a677c54e91f2222170a12252fe509d069',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::data_']]],
+  ['default_5finfo_5fb_5fmask_6',['DEFAULT_INFO_B_MASK',['../split__embeddings__utils_8cuh.html#a312a32dcc1f3a4980ed4c458b8bab67f',1,'split_embeddings_utils.cuh']]],
+  ['default_5finfo_5fb_5fnum_5fbits_7',['DEFAULT_INFO_B_NUM_BITS',['../split__embeddings__utils_8cuh.html#ac9d136da765bb4871acd477da0f2c254',1,'split_embeddings_utils.cuh']]],
+  ['default_5finfo_5fnum_5fbits_8',['DEFAULT_INFO_NUM_BITS',['../split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd',1,'split_embeddings_utils.cuh']]],
+  ['dense_5fsegment_5fvalue_5fdata_9',['dense_segment_value_data',['../namespacefbgemm__gpu.html#a2f93c0df9186a239cfd59505a464fc36',1,'fbgemm_gpu']]],
+  ['dev_5fweights_10',['dev_weights',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a6d8072fe7f1cbd1cf456e3ea8a440ad3',1,'dev_weights:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c',1,'dev_weights:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac251990f6a37927ea6f8c58584ec7a4c',1,'dev_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a7ac7f1200f9cc67310a434e6da2bc8ae',1,'dev_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['dim_5f_11',['dim_',['../structfbgemm__gpu_1_1_weight_row.html#a844805bf936642eb8849d76b506abf8d',1,'fbgemm_gpu::WeightRow']]],
+  ['do_5fwrite_12',['do_write',['../bench__utils_8cuh.html#af01122d304bbe0308fe6c59bebe33730',1,'bench_utils.cuh']]]
+];
diff --git a/search/variables_4.js b/search/variables_4.js
new file mode 100644
index 000000000..0a2259d99
--- /dev/null
+++ b/search/variables_4.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['else_0',['else',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a0544c3fe466e421738dae463968b70ba',1,'else:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#a0544c3fe466e421738dae463968b70ba',1,'fbgemm_gpu::else']]],
+  ['eps_1',['eps',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3af1a7fb1e7c77ec014031cd2e1d0837',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]]
+];
diff --git a/search/variables_5.js b/search/variables_5.js
new file mode 100644
index 000000000..4c14de952
--- /dev/null
+++ b/search/variables_5.js
@@ -0,0 +1,10 @@
+var searchData=
+[
+  ['false_0',['false',['../gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc',1,'false:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]],
+  ['fd_5fb_1',['fd_B',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a2d1eb541d5bdde0bf935a46f15efb9f4',1,'fd_B:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a488a7f217a1d4705fbcdce81e0a028b2',1,'fd_B:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a6b3d6f3af7d65ed111be48db11a4cc24',1,'fd_B:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu']]],
+  ['fd_5fnum_5fwarps_5fper_5flist_2',['fd_num_warps_per_list',['../namespacefbgemm__gpu.html#a8d2f3cd432a3bf2de49086fb33ef71cb',1,'fbgemm_gpu']]],
+  ['fd_5fnum_5fwarps_5fper_5ftable_3',['fd_num_warps_per_table',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a4a300401a48c1b4c0d98e372a4293da2',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a91261c861a9c2e7ff7936dba196c034e',1,'fd_num_warps_per_table:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['fixed_5fl_5fper_5fwarp_4',['fixed_L_per_warp',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acac1f3391492ec3c4a8942ec48197027',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['float_5',['float',['../gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_batch_index_select_dim0_backward_kernel_cta.cu'],['../gen__batch__index__select__dim0__backward__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_batch_index_select_dim0_backward_kernel_warp.cu'],['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__approx__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_approx_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__dense__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__dense__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_dense_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__lars__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_lars_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__none__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__none__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__none__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_none_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__adam__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_adam_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__partial__rowwise__lamb__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_partial_rowwise_lamb_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__counter__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_counter_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__adagrad__with__weight__decay__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_adagrad_with_weight_decay_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__rowwise__weighted__adagrad__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_rowwise_weighted_adagrad_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__nobag__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_nobag_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__unweighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_unweighted_vbe_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_kernel_warp.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_cta.cu'],['../gen__embedding__backward__sgd__split__weighted__vbe__kernel__warp_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_backward_sgd_split_weighted_vbe_kernel_warp.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../namespacenbit.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'nbit::float'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ae44f656615f2dcbbfec55dc3f365b9e3',1,'float:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a6df94b891e47f19e9fa76b529e49cdda',1,'float:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['func_5fname_5f_6',['func_name_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a6bf2b75bf9dc4183f00948671a67e498',1,'fbgemm_gpu::TensorAccessorBase::func_name_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a1a08cc832507584680a6266e8c20c52f',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::func_name_']]]
+];
diff --git a/search/variables_6.js b/search/variables_6.js
new file mode 100644
index 000000000..a75c05b12
--- /dev/null
+++ b/search/variables_6.js
@@ -0,0 +1,14 @@
+var searchData=
+[
+  ['gauss_0',['gauss',['../structfbgemm__gpu_1_1rk__state.html#a84e948a0aa303456e29ddecfac6a1e46',1,'fbgemm_gpu::rk_state']]],
+  ['global_5fwarp_5fid_1',['global_warp_id',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6',1,'global_warp_id:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a53d1bd761ca2346d5b9bcc60d1c43be6',1,'global_warp_id:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['grad_5fdev_5findices_2',['grad_dev_indices',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af8b6c324711f37bf86e87d3d74f65c2e',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['grad_5fdev_5fweights_3',['grad_dev_weights',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a18e7685a5fc29b232d08a33a75c44ca2',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['grad_5foutput_4',['grad_output',['../namespacefbgemm__gpu.html#a2a24c1ec3db68358edcac4561d38a0d1',1,'fbgemm_gpu']]],
+  ['grad_5fsum_5',['grad_sum',['../namespacefbgemm__gpu.html#ae1519b6699f9dca1080e9230f3d95245',1,'fbgemm_gpu']]],
+  ['grad_5fweight_6',['grad_weight',['../namespacefbgemm__gpu.html#a5b80925f60fbc21517ec3a2e137b78bd',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5fcols_5fper_5fwarp_7',['GROUP_INDEX_SELECT_COLS_PER_WARP',['../namespacefbgemm__gpu.html#a0d76fd54f347327376ed8ba28ff66bfc',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5flog_5fcols_5fper_5fwarp_8',['GROUP_INDEX_SELECT_LOG_COLS_PER_WARP',['../namespacefbgemm__gpu.html#a696ffb981f6c273f77aae0cf102b1f6b',1,'fbgemm_gpu']]],
+  ['group_5findex_5fselect_5funroll_5ffactor_9',['GROUP_INDEX_SELECT_UNROLL_FACTOR',['../namespacefbgemm__gpu.html#a693bb0de52991f987fe81dc61c750403',1,'fbgemm_gpu']]],
+  ['group_5fsize_10',['group_size',['../namespacefbgemm__gpu.html#af0a2fbea18e37c564b3cada4172d96ff',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_7.js b/search/variables_7.js
new file mode 100644
index 000000000..0f5926e1d
--- /dev/null
+++ b/search/variables_7.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['half4_0',['half4',['../jagged__tensor__ops_2common_8cuh.html#ac6142811afa7f90ec76eae1bc05da82b',1,'common.cuh']]],
+  ['half8_1',['half8',['../jagged__tensor__ops_2common_8cuh.html#a93d30ba34e45e42dfd6b2547b1652cb6',1,'common.cuh']]],
+  ['has_5fgauss_2',['has_gauss',['../structfbgemm__gpu_1_1rk__state.html#a629587b5f04293ea2b0bf452faa48344',1,'fbgemm_gpu::rk_state']]]
+];
diff --git a/search/variables_8.js b/search/variables_8.js
new file mode 100644
index 000000000..136d944ce
--- /dev/null
+++ b/search/variables_8.js
@@ -0,0 +1,32 @@
+var searchData=
+[
+  ['idx_0',['idx',['../namespacefbgemm__gpu.html#a9d7e9481c420588a334b2aedac0f5af4',1,'fbgemm_gpu']]],
+  ['index_5fweights_1',['index_weights',['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a79f22b62b5882d0d141e2797331c3262',1,'index_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['indices_2',['indices',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff',1,'indices:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a983b46d1ccd1b8d7ee0f786801acdabf',1,'indices:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179',1,'indices:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac6808dbd8c1563373cd2bf230c07e283',1,'indices:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2d7f9971f231260d0da708ce6bf6c179',1,'indices:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6df12c527b79f006699968f24d774fcb',1,'indices:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6',1,'fbgemm_gpu::indices']]],
+  ['indices_5faddrs_3',['indices_addrs',['../namespacefbgemm__gpu.html#a192b4d5303123cf4b57b1491cd42e36e',1,'fbgemm_gpu']]],
+  ['indices_5fdata_4',['indices_data',['../namespacefbgemm__gpu.html#acb7eb1c50758e407a638a81723961f56',1,'fbgemm_gpu']]],
+  ['indices_5fend_5',['indices_end',['../namespacefbgemm__gpu.html#ac7c7ecdd5162f325b65a6b5c5c6c40ca',1,'fbgemm_gpu']]],
+  ['indices_5fis_5flong_6',['indices_is_long',['../namespacefbgemm__gpu.html#a3d08a36103c24a910afe1dbfa89e3060',1,'fbgemm_gpu']]],
+  ['indices_5foffsets_7',['indices_offsets',['../namespacefbgemm__gpu.html#af03fdab0a39bf13b8ec4de336253b8aa',1,'fbgemm_gpu']]],
+  ['indices_5fptrs_8',['indices_ptrs',['../namespacefbgemm__gpu.html#a7e26138f974174b1cd94f35321fef17d',1,'fbgemm_gpu']]],
+  ['indices_5fstart_9',['indices_start',['../namespacefbgemm__gpu.html#a43255cb54bbd791afb26a23af02acfec',1,'fbgemm_gpu']]],
+  ['indices_5fto_5flb_10',['indices_to_lb',['../namespacefbgemm__gpu.html#af069d2baffbfbe0b8aae6aea56d31e86',1,'fbgemm_gpu']]],
+  ['info_11',['info',['../namespacefbgemm__gpu.html#aa494944475a226c613cdd03931ba061d',1,'fbgemm_gpu']]],
+  ['info_5farch_12',['info_arch',['../_c_make_c_compiler_id_8c.html#a59647e99d304ed33b15cb284c27ed391',1,'info_arch:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a59647e99d304ed33b15cb284c27ed391',1,'info_arch:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5fb_5fmask_13',['info_B_mask',['../namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f',1,'fbgemm_gpu']]],
+  ['info_5fb_5fnum_5fbits_14',['info_B_num_bits',['../namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453',1,'fbgemm_gpu']]],
+  ['info_5fcompiler_15',['info_compiler',['../_c_make_c_compiler_id_8c.html#a4b0efeb7a5d59313986b3a0390f050f6',1,'info_compiler:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a4b0efeb7a5d59313986b3a0390f050f6',1,'info_compiler:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5flanguage_5fextensions_5fdefault_16',['info_language_extensions_default',['../_c_make_c_compiler_id_8c.html#a0f46a8a39e09d9b803c4766904fd7e99',1,'info_language_extensions_default:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a0f46a8a39e09d9b803c4766904fd7e99',1,'info_language_extensions_default:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5flanguage_5fstandard_5fdefault_17',['info_language_standard_default',['../_c_make_c_compiler_id_8c.html#a4607cccf070750927b458473ca82c090',1,'info_language_standard_default:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a4607cccf070750927b458473ca82c090',1,'info_language_standard_default:&#160;CMakeCXXCompilerId.cpp']]],
+  ['info_5fplatform_18',['info_platform',['../_c_make_c_compiler_id_8c.html#a2321403dee54ee23f0c2fa849c60f7d4',1,'info_platform:&#160;CMakeCCompilerId.c'],['../_c_make_c_x_x_compiler_id_8cpp.html#a2321403dee54ee23f0c2fa849c60f7d4',1,'info_platform:&#160;CMakeCXXCompilerId.cpp']]],
+  ['input_5foffsets_19',['input_offsets',['../namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553',1,'fbgemm_gpu']]],
+  ['input_5fsize_20',['input_size',['../namespacefbgemm__gpu.html#a5549affa3c112bf0c71b0e2323eb0c14',1,'fbgemm_gpu']]],
+  ['int32_5ft_21',['int32_t',['../namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99',1,'fbgemm_gpu']]],
+  ['int64_5ft_22',['int64_t',['../gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_batch_index_select_dim0_forward_kernel.cu'],['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__backward__split__grad_8cu.html#af261ebff9d4ab236e8dd6bea30db7fb1',1,'int64_t:&#160;gen_embedding_backward_split_grad.cu'],['../gen__embedding__forward__dense__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__dense__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_dense_weighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_unweighted_vbe_kernel.cu'],['../gen__embedding__forward__split__weighted__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70',1,'int64_t:&#160;gen_embedding_forward_split_weighted_vbe_kernel.cu']]],
+  ['is_5flong_5fidx_23',['is_long_idx',['../namespacefbgemm__gpu.html#a96187c00fa81aaf4d6404cc915a5d7b7',1,'fbgemm_gpu']]],
+  ['is_5flong_5fmask_24',['is_long_mask',['../namespacefbgemm__gpu.html#ace5ac8a87afdca35747d5c9bd8e33e73',1,'fbgemm_gpu']]],
+  ['is_5flong_5fnum_5fbits_25',['IS_LONG_NUM_BITS',['../namespacefbgemm__gpu.html#ab9c0e24618d9ec723a7fcc8653c0dd59',1,'fbgemm_gpu']]],
+  ['is_5fsmall_5fl_26',['is_small_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3',1,'is_small_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a58d2a94da907a301d9cd71dffefa25c3',1,'is_small_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['is_5fzero_5ftotal_5fl_27',['is_zero_total_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385',1,'is_zero_total_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ac5d11523cb9e630706dead6e236d9385',1,'is_zero_total_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['items_5f_28',['items_',['../classfbgemm__gpu_1_1enum__registration.html#addb614cfff2cdb5220c587cbfd7b08fb',1,'fbgemm_gpu::enum_registration']]]
+];
diff --git a/search/variables_9.js b/search/variables_9.js
new file mode 100644
index 000000000..316c5fa18
--- /dev/null
+++ b/search/variables_9.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['kbackwardmaxthreads_0',['kBackwardMaxThreads',['../embedding__backward__template__helpers_8cuh.html#a1844f7d12c928eeeab43f95ae91376c7',1,'embedding_backward_template_helpers.cuh']]],
+  ['kcachelocationmissing_1',['kCacheLocationMissing',['../embedding__forward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321',1,'kCacheLocationMissing:&#160;embedding_forward_template_helpers.cuh'],['../embedding__backward__template__helpers_8cuh.html#a377d2c34d1f3becb19a91ea600e05321',1,'kCacheLocationMissing:&#160;embedding_backward_template_helpers.cuh'],['../namespacefbgemm__gpu.html#a377d2c34d1f3becb19a91ea600e05321',1,'fbgemm_gpu::kCacheLocationMissing']]],
+  ['kforwardmaxthreads_2',['kForwardMaxThreads',['../embedding__forward__template__helpers_8cuh.html#ac9909b6865afc4a3e07fabe1ed204459',1,'embedding_forward_template_helpers.cuh']]],
+  ['krowinitbuffersize_3',['kRowInitBufferSize',['../namespacessd.html#a03257f8b2bc7207cc362638228aeb2f6',1,'ssd']]],
+  ['kstackarraymaxdims_4',['kStackArrayMaxDims',['../sparse__ops__utils_8h.html#ab6183b92f9eac6ca49e3055d79dfc83d',1,'sparse_ops_utils.h']]],
+  ['kwarpsize_5',['kWarpSize',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4a63994c436795f993c09c5626acfb05',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]]
+];
diff --git a/search/variables_a.js b/search/variables_a.js
new file mode 100644
index 000000000..fa4df6714
--- /dev/null
+++ b/search/variables_a.js
@@ -0,0 +1,22 @@
+var searchData=
+[
+  ['l_0',['L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2',1,'L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a67824ecf84f5816f07b74fa956bdbcd2',1,'L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../namespacefbgemm__gpu.html#a71a77dfc9561ca59031082dfd57dd5ca',1,'fbgemm_gpu::L']]],
+  ['learning_5frate_1',['learning_rate',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a205f082b0bb0cee9301dc4e5d0521b5c',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['left_2',['left',['../namespacefbgemm__gpu.html#ad8f5e19e19f12974c9713e920ec54331',1,'fbgemm_gpu']]],
+  ['length_5fto_5ffeature_5fidx_3',['length_to_feature_idx',['../namespacefbgemm__gpu.html#a10c64e822d3634da34b9bf1f0c38d757',1,'fbgemm_gpu']]],
+  ['lengths_4',['lengths',['../namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548',1,'fbgemm_gpu']]],
+  ['lengths_5faddrs_5',['lengths_addrs',['../namespacefbgemm__gpu.html#a2b15eac55dd0239102e264b41febb49f',1,'fbgemm_gpu']]],
+  ['lengths_5fend_6',['lengths_end',['../namespacefbgemm__gpu.html#a80de4cfcf0b435f1edbf9ba9cb999695',1,'fbgemm_gpu']]],
+  ['lengths_5fis_5flong_7',['lengths_is_long',['../namespacefbgemm__gpu.html#ad8b8d41e5b0a7f0f67d18d46f561eef8',1,'fbgemm_gpu']]],
+  ['lengths_5foffsets_8',['lengths_offsets',['../namespacefbgemm__gpu.html#ab245b3e7b831d8e003a353250359843d',1,'fbgemm_gpu']]],
+  ['lengths_5fstart_9',['lengths_start',['../namespacefbgemm__gpu.html#a332f5a97c570870675755b52b91919d6',1,'fbgemm_gpu']]],
+  ['linear_5findex_10',['linear_index',['../namespacefbgemm__gpu.html#a177d197b75db75ee70711f48a28e1524',1,'fbgemm_gpu']]],
+  ['list_5fid_11',['list_id',['../namespacefbgemm__gpu.html#a07403af74afe12cdace7e1ec4ff38e72',1,'fbgemm_gpu']]],
+  ['load_5fd_12',['load_D',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67',1,'load_D:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a016decd4d08ff2700a397621aff0cd67',1,'load_D:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['load_5fd_13',['load_d',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739',1,'load_d:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6aa5afd375a88f7cb364118fde074739',1,'load_d:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['loaded_5fvals_14',['loaded_vals',['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a57864e02cf856e5c64f95a762c18151f',1,'fbgemm_gpu::Vec4StepT&lt; STEP, float &gt;::loaded_vals'],['../structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a6de86c6a3f25c34f8b13752e8042ea2e',1,'fbgemm_gpu::Vec4StepT&lt; STEP, at::Half &gt;::loaded_vals']]],
+  ['logit_5fdata_15',['logit_data',['../namespacefbgemm__gpu.html#a666f6d4fb27d254047edf38944a98e81',1,'fbgemm_gpu']]],
+  ['lxu_5fcache_5flocations_16',['lxu_cache_locations',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a3c502d4dedd432c8940a937269071ddc',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a04f448d8b284fc09ac62abe6b241bfb0',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8204f76fc5db4c5c7ac336538fa9da1f',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#ab8dd6cf2b56fe463818d54d1317d9fff',1,'lxu_cache_locations:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['lxu_5fcache_5fweights_17',['lxu_cache_weights',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a1d665aaf5a0d98bca13be6c158653005',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a2581c8ea9d11ed091efe32b3ec6d2920',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a6a68ceee01fdfd5d0a31881988c095ae',1,'lxu_cache_weights:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#aac2986832e167da4c333ea92ea3deff2',1,'lxu_cache_weights:&#160;gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['lxu_5fparams_5fcnt_18',['LXU_PARAMS_CNT',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../embedding__forward__split__kernel__v2__template_8cu.html#ae2a8bf21f0c677246d8d102686641b65',1,'LXU_PARAMS_CNT:&#160;embedding_forward_split_kernel_v2_template.cu']]]
+];
diff --git a/search/variables_b.js b/search/variables_b.js
new file mode 100644
index 000000000..e576a2174
--- /dev/null
+++ b/search/variables_b.js
@@ -0,0 +1,17 @@
+var searchData=
+[
+  ['mask_0',['mask',['../jagged__tensor__ops_2common_8cuh.html#a7d162c8b2172ea2cb7a10852acacc635',1,'common.cuh']]],
+  ['max_5fb_1',['MAX_B',['../split__embeddings__utils_8cuh.html#a8fe8da855c3ca31f1825ef6779aa2458',1,'split_embeddings_utils.cuh']]],
+  ['max_5fd_2',['max_D',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a4b79f2e1c1afb0ee9291f6d406038bd7',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['max_5fd_5fcache_3',['max_D_cache',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a179f256aa33ee3f02b437129f3186a4c',1,'max_D_cache:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a5c99f8e3e9c924534ce3075312e4b34a',1,'max_D_cache:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['max_5felements_5fper_5fthread_4',['MAX_ELEMENTS_PER_THREAD',['../namespacefbgemm__gpu.html#af75fe947c4a976895a9fb2c7501439b1',1,'fbgemm_gpu']]],
+  ['max_5fentries_5fper_5fblock_5',['MAX_ENTRIES_PER_BLOCK',['../metric__ops_8cu.html#a9c50cd9bc9f8be967692db87d6fdf57f',1,'metric_ops.cu']]],
+  ['max_5fnorm_6',['max_norm',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5dad34a0e8f59dfa6c15365b5f987ba6',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['max_5ft_7',['MAX_T',['../split__embeddings__utils_8cuh.html#a83944439cec525d70fcf8281a639760d',1,'split_embeddings_utils.cuh']]],
+  ['mean_5fpooling_8',['mean_pooling',['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#aa7749446d7c1da86adc5b7c06dcc7817',1,'mean_pooling:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a3fdf1a4014f7660a86139d200368f74f',1,'mean_pooling:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu']]],
+  ['momentum1_5fdev_9',['momentum1_dev',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#af9476d367260e52c6a3bd31824072c06',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5foffsets_10',['momentum1_offsets',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#afd2978ce7ef7477233a8bda0aacde4e2',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5fplacements_11',['momentum1_placements',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a10602f96a8b9264528834b6a1763ffb1',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['momentum1_5fuvm_12',['momentum1_uvm',['../gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a3f5ed4cb8fcb526d7476413516fd546f',1,'gen_embedding_optimizer_rowwise_adagrad_split_kernel.cu']]],
+  ['my_5fsize_13',['my_size',['../namespacefbgemm__gpu.html#a726d1405842124631d2e9543e6abfd70',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_c.js b/search/variables_c.js
new file mode 100644
index 000000000..bc615538a
--- /dev/null
+++ b/search/variables_c.js
@@ -0,0 +1,27 @@
+var searchData=
+[
+  ['n_0',['n',['../namespacefbgemm__gpu.html#a4e34aefb3cc5403a07c020131077100a',1,'fbgemm_gpu']]],
+  ['name_5f_1',['name_',['../classfbgemm__gpu_1_1enum__registration.html#a7dac8366c11fbcad2f49d85fe8fc4fbe',1,'fbgemm_gpu::enum_registration']]],
+  ['ndim_2',['ndim',['../struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9',1,'StackArray']]],
+  ['new_5findices_5fdata_3',['new_indices_data',['../namespacefbgemm__gpu.html#a12ee89697c142bf6626fc9773b3784ce',1,'fbgemm_gpu']]],
+  ['new_5flengths_5fdata_4',['new_lengths_data',['../namespacefbgemm__gpu.html#a2590465d158f637aa65cb705ceff155d',1,'fbgemm_gpu']]],
+  ['new_5foffsets_5fdata_5',['new_offsets_data',['../namespacefbgemm__gpu.html#ab36576a24b49bfce1e9b6ff66a37ebe1',1,'fbgemm_gpu']]],
+  ['new_5fpos_5fdata_6',['new_pos_data',['../namespacefbgemm__gpu.html#a1543754093f5b3f003f28b6120d4508f',1,'fbgemm_gpu']]],
+  ['new_5fweights_5fdata_7',['new_weights_data',['../namespacefbgemm__gpu.html#a2aaf9a58df0549a13d01ab53cd60ddff',1,'fbgemm_gpu']]],
+  ['next_5f_8',['next_',['../classfbgemm__gpu_1_1enum__registration.html#a8797d90a1e9ec2163cb8192a962d06dd',1,'fbgemm_gpu::enum_registration']]],
+  ['next_5foffset_9',['next_offset',['../namespacefbgemm__gpu.html#ac588c52c993fa6f169cb54d418ea584c',1,'fbgemm_gpu']]],
+  ['num_5fargs_10',['NUM_ARGS',['../namespacefbgemm__gpu.html#a711d3a0cadc94f73da860c1ffd01e1b2',1,'fbgemm_gpu']]],
+  ['num_5fbins_11',['num_bins',['../namespacefbgemm__gpu.html#aff8ee4d321b4a815868fe53b25b8fe6b',1,'fbgemm_gpu']]],
+  ['num_5fcols_5fgroup_12',['num_cols_group',['../namespacefbgemm__gpu.html#a2f734f38c3537666ae53e906e65c1a6e',1,'fbgemm_gpu']]],
+  ['num_5flists_13',['num_lists',['../namespacefbgemm__gpu.html#a447e5ea8dc79992a05131d8803d2bf7e',1,'fbgemm_gpu']]],
+  ['num_5fnon_5fzero_5fcolumns_14',['num_non_zero_columns',['../structinternal_1_1_hyper_compressed_sparse_column.html#a601991d88e6582d3bdb8bba778842c25',1,'internal::HyperCompressedSparseColumn']]],
+  ['num_5foffsets_5fper_5fwarp_15',['NUM_OFFSETS_PER_WARP',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af',1,'NUM_OFFSETS_PER_WARP:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a507523ed27f39808542bbb3b9c1382af',1,'NUM_OFFSETS_PER_WARP:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fparams_16',['NUM_PARAMS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5',1,'NUM_PARAMS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a586264efd35f61c1e5b73ab1fd4f87a5',1,'NUM_PARAMS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fsegments_17',['num_segments',['../namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017',1,'fbgemm_gpu']]],
+  ['num_5fthreads_5fper_5fblock_18',['NUM_THREADS_PER_BLOCK',['../metric__ops_8cu.html#ac147221d5b74086a08d3623657d16517',1,'metric_ops.cu']]],
+  ['num_5fwarps_19',['NUM_WARPS',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167',1,'NUM_WARPS:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#aef84dc9fc9b8afa43b8fed4684630167',1,'NUM_WARPS:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwarps_5ffor_5fsmall_5fl_20',['num_warps_for_small_L',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92',1,'num_warps_for_small_L:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a1df1c715b5de4bbc9d9d9a5d78122a92',1,'num_warps_for_small_L:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwarps_5fper_5frow_21',['num_warps_per_row',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9',1,'num_warps_per_row:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#af324e8b39fc546b4a54e9436513e33b9',1,'num_warps_per_row:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['num_5fwork_5frows_22',['num_work_rows',['../namespacefbgemm__gpu.html#aeb2ce03cab381b1393d4c7c355ef2286',1,'fbgemm_gpu']]],
+  ['numel_5f_23',['numel_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d',1,'fbgemm_gpu::TensorAccessorBase::numel_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#af0cbc4b5fa9aa44d9a44f4df77fa5c2d',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::numel_']]]
+];
diff --git a/search/variables_d.js b/search/variables_d.js
new file mode 100644
index 000000000..05a2bd193
--- /dev/null
+++ b/search/variables_d.js
@@ -0,0 +1,10 @@
+var searchData=
+[
+  ['offsets_0',['offsets',['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647',1,'offsets:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024',1,'offsets:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#aab1af2e6ba28faa781f71e91f2347d43',1,'offsets:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a6ed0a81091088c3c07a10b7fd8e63358',1,'offsets:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#afc0762ff936d64a73eef3c78b9585024',1,'offsets:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a7f8b83bcbf1f5b73f650fb246a02a2fe',1,'offsets:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da',1,'fbgemm_gpu::offsets']]],
+  ['offsets_5fdata_1',['offsets_data',['../namespacefbgemm__gpu.html#a66f41f5ea495c26af7e2007fe0a28edc',1,'fbgemm_gpu']]],
+  ['output_2',['output',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672',1,'output:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#af6e6ad15bb4078d9c64b33a85e9618ec',1,'output:&#160;gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f',1,'output:&#160;gen_embedding_forward_split_unweighted_codegen_cuda.cu'],['../gen__embedding__forward__split__unweighted__nobag__kernel__small_8cu.html#a511b9e94b01de29a6671f16533eaf6dd',1,'output:&#160;gen_embedding_forward_split_unweighted_nobag_kernel_small.cu'],['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aa742bdb164d113128d3e9b155f95acfe',1,'output:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__unweighted__vbe__codegen__cuda_8cu.html#a8cb737489e5e5b8dc4db6de0b9c96a6f',1,'output:&#160;gen_embedding_forward_split_unweighted_vbe_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_codegen_cuda.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__vbe__codegen__cuda_8cu.html#a85cde3a0577b44c06afc80d802b86dc6',1,'output:&#160;gen_embedding_forward_split_weighted_vbe_codegen_cuda.cu'],['../namespacefbgemm__gpu.html#ae662e9187ce6364e1668803dfbf7e7d0',1,'fbgemm_gpu::output']]],
+  ['output_5fdata_3',['output_data',['../namespacefbgemm__gpu.html#a783fcd132908afcc711d1a7fb2cb51a7',1,'fbgemm_gpu']]],
+  ['output_5foffsets_4',['output_offsets',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a48df3803c4f164ff153d5348c6f8f10f',1,'output_offsets:&#160;gen_batch_index_select_dim0_forward_kernel_small.cu'],['../namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5',1,'fbgemm_gpu::output_offsets']]],
+  ['output_5fpermute_5',['output_permute',['../namespacefbgemm__gpu.html#aa80e8b11fe8b3b1a619f329aeb089f54',1,'fbgemm_gpu']]],
+  ['output_5fptrs_6',['output_ptrs',['../namespacefbgemm__gpu.html#a038ee34932113e6d3d38345920211f4c',1,'fbgemm_gpu']]]
+];
diff --git a/search/variables_e.js b/search/variables_e.js
new file mode 100644
index 000000000..c4cc373d7
--- /dev/null
+++ b/search/variables_e.js
@@ -0,0 +1,15 @@
+var searchData=
+[
+  ['params_5foffset_0',['params_offset',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada',1,'params_offset:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a02bec57c3d9431edc5aba7767412fada',1,'params_offset:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['per_5fsample_5fweights_5faddrs_1',['per_sample_weights_addrs',['../namespacefbgemm__gpu.html#a34e6956031d1fc5c0f8df5fb432bcfbd',1,'fbgemm_gpu']]],
+  ['permute_2',['permute',['../namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394',1,'fbgemm_gpu']]],
+  ['permute_5foutput_5fdim_5f0_5f1_3',['permute_output_dim_0_1',['../gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a5bd1879ce15d52289f55eb10253c8e8e',1,'gen_batch_index_select_dim0_forward_kernel_small.cu']]],
+  ['permuted_5findices_4',['permuted_indices',['../namespacefbgemm__gpu.html#ab448dead4746a419f7d4a69a32c788ea',1,'fbgemm_gpu']]],
+  ['permuted_5flengths_5fsize_5',['permuted_lengths_size',['../namespacefbgemm__gpu.html#a77fcd99017c7bb6155d154951f8f45bc',1,'fbgemm_gpu']]],
+  ['permuted_5fweights_6',['permuted_weights',['../namespacefbgemm__gpu.html#a3035a61c641ca380da28b01558f5fdaa',1,'fbgemm_gpu']]],
+  ['pre_5fsigmoid_7',['pre_sigmoid',['../namespacefbgemm__gpu.html#a63c15a2ca68e0a1638710ac9d5335e6a',1,'fbgemm_gpu']]],
+  ['producer_5f_8',['producer_',['../classssd_1_1_initializer.html#a94a9376947a96732a7b6de4ca94e7fdd',1,'ssd::Initializer']]],
+  ['producer_5fqueue_5f_9',['producer_queue_',['../classssd_1_1_initializer.html#a04da45f241a7f5da5ebb52930ed756bc',1,'ssd::Initializer']]],
+  ['ptr_5f_10',['ptr_',['../memory__utils_8cu.html#afbe2be78a3ee81b2e3c6821cec74e116',1,'memory_utils.cu']]],
+  ['ptr_5fname_5f_11',['ptr_name_',['../classfbgemm__gpu_1_1_tensor_accessor_base.html#a504eb62b720c68145e6377f6b3eaac16',1,'fbgemm_gpu::TensorAccessorBase::ptr_name_'],['../classfbgemm__gpu_1_1_generic_packed_tensor_accessor_base.html#a7023a589c692642eb10fc0c64501a097',1,'fbgemm_gpu::GenericPackedTensorAccessorBase::ptr_name_']]]
+];
diff --git a/search/variables_f.js b/search/variables_f.js
new file mode 100644
index 000000000..6f439cc57
--- /dev/null
+++ b/search/variables_f.js
@@ -0,0 +1,12 @@
+var searchData=
+[
+  ['range_5fdata_0',['range_data',['../namespacefbgemm__gpu.html#aef9d86cd563a5416a6c556a5902c966d',1,'fbgemm_gpu']]],
+  ['range_5fsize_1',['range_size',['../namespacefbgemm__gpu.html#ad7972a8cfd2b4fbe5e0b5b29f12beaa7',1,'fbgemm_gpu']]],
+  ['recalibrate_5fvalue_2',['recalibrate_value',['../namespacefbgemm__gpu.html#a6b36a55458d7d4b9024fd515605c29ee',1,'fbgemm_gpu']]],
+  ['registration_5flist_3',['registration_list',['../classfbgemm__gpu_1_1enum__registration.html#afbf71e4018b8f6bf7ff11e50f3aeed14',1,'fbgemm_gpu::enum_registration']]],
+  ['right_4',['right',['../namespacefbgemm__gpu.html#a2f54f8b71f0d765e2b7dbd9a8b9774ff',1,'fbgemm_gpu']]],
+  ['row_5f_5',['row_',['../structfbgemm__gpu_1_1_weight_row.html#aba84449b569f220a80ccbbcc1d4da57c',1,'fbgemm_gpu::WeightRow']]],
+  ['row_5findices_6',['row_indices',['../structinternal_1_1_hyper_compressed_sparse_column.html#a22af9d871fd3faef3d676cc6757debcc',1,'internal::HyperCompressedSparseColumn']]],
+  ['row_5fstart_7',['row_start',['../gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e',1,'row_start:&#160;gen_embedding_forward_split_unweighted_v2_kernel.cu'],['../gen__embedding__forward__split__weighted__v2__kernel_8cu.html#a91f4b44299546e7bea8da7a89cff344e',1,'row_start:&#160;gen_embedding_forward_split_weighted_v2_kernel.cu']]],
+  ['row_5fstorage_5f_8',['row_storage_',['../classssd_1_1_initializer.html#a3f2b57f32ee510408e83a7c26716d7a5',1,'ssd::Initializer']]]
+];
diff --git a/searchindex.js b/searchindex.js
index 7aa4af160..80fb041a2 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["cpp-api/embedding_ops","cpp-api/input_combine","cpp-api/jagged_tensor_ops","cpp-api/layout_transform_ops","cpp-api/memory_utils","cpp-api/merge_pooled_embeddings","cpp-api/quantize_ops","cpp-api/sparse_ops","cpp-api/split_table_batched_embeddings","general/BuildInstructions","general/InstallationInstructions","general/TestInstructions","index","python-api/jagged_tensor_ops","python-api/table_batched_embedding_ops","pytorch-sphinx-theme/CODE_OF_CONDUCT","pytorch-sphinx-theme/CONTRIBUTING","pytorch-sphinx-theme/README","pytorch-sphinx-theme/docs/changelog","pytorch-sphinx-theme/docs/configuring","pytorch-sphinx-theme/docs/demo/api","pytorch-sphinx-theme/docs/demo/demo","pytorch-sphinx-theme/docs/demo/lists_tables","pytorch-sphinx-theme/docs/demo/long","pytorch-sphinx-theme/docs/demo/structure","pytorch-sphinx-theme/docs/index","pytorch-sphinx-theme/docs/installing"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":3,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":2,"sphinx.domains.rst":2,"sphinx.domains.std":1,"sphinx.ext.intersphinx":1,sphinx:56},filenames:["cpp-api/embedding_ops.rst","cpp-api/input_combine.rst","cpp-api/jagged_tensor_ops.rst","cpp-api/layout_transform_ops.rst","cpp-api/memory_utils.rst","cpp-api/merge_pooled_embeddings.rst","cpp-api/quantize_ops.rst","cpp-api/sparse_ops.rst","cpp-api/split_table_batched_embeddings.rst","general/BuildInstructions.rst","general/InstallationInstructions.rst","general/TestInstructions.rst","index.rst","python-api/jagged_tensor_ops.rst","python-api/table_batched_embedding_ops.rst","pytorch-sphinx-theme/CODE_OF_CONDUCT.md","pytorch-sphinx-theme/CONTRIBUTING.md","pytorch-sphinx-theme/README.md","pytorch-sphinx-theme/docs/changelog.rst","pytorch-sphinx-theme/docs/configuring.rst","pytorch-sphinx-theme/docs/demo/api.rst","pytorch-sphinx-theme/docs/demo/demo.rst","pytorch-sphinx-theme/docs/demo/lists_tables.rst","pytorch-sphinx-theme/docs/demo/long.rst","pytorch-sphinx-theme/docs/demo/structure.rst","pytorch-sphinx-theme/docs/index.rst","pytorch-sphinx-theme/docs/installing.rst"],objects:{"":{"FP8QuantizedToFloat_ref::ebits":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8QuantizedToFloat_ref::exponent_bias":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8QuantizedToFloat_ref::input":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8QuantizedToFloat_ref::ncols":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8QuantizedToFloat_ref::nrows":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8QuantizedToFloat_ref::output":[6,1,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],"FP8rowwise_to_float_cpu::forward":[6,1,1,"_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"],"FP8rowwise_to_float_cpu::input":[6,1,1,"_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"],"FP8rowwise_to_float_cpu::output_dtype":[6,1,1,"_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"],"FloatToFP8Quantized_ref::ebits":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::exponent_bias":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::input":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::max_pos":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::ncols":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::nrows":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"FloatToFP8Quantized_ref::output":[6,1,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],"_float_to_fused8bitrowwise_cpu_out::input":[6,1,1,"_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"],"_float_to_fused8bitrowwise_cpu_out::output":[6,1,1,"_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"],"_float_to_fusednbitrowwise_gpu_t::bit_rate":[6,1,1,"_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t"],"_float_to_fusednbitrowwise_gpu_t::input":[6,1,1,"_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t"],"_float_to_fusednbitrowwise_gpu_t::input_t":[6,2,1,"_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t"],"_fused8bitrowwise_to_float_cpu_out::input":[6,1,1,"_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"],"_fused8bitrowwise_to_float_cpu_out::output":[6,1,1,"_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"],"_fusednbitrowwise_to_float_gpu_t::bit_rate":[6,1,1,"_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t"],"_fusednbitrowwise_to_float_gpu_t::input":[6,1,1,"_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t"],"_fusednbitrowwise_to_float_gpu_t::output_t":[6,2,1,"_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t"],"all_to_one_device::inputTensors":[5,1,1,"_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"],"all_to_one_device::target_device":[5,1,1,"_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"],"batched_dense_vec_jagged_2d_mul::a_offsets":[2,1,1,"_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"],"batched_dense_vec_jagged_2d_mul::a_values":[2,1,1,"_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"],"batched_dense_vec_jagged_2d_mul::v":[2,1,1,"_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"],"bounds_check_indices_cuda::B_ofsets":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::bounds_check_mode":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::indices":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::max_B":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::offsets":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::rows_per_table":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::warning":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"bounds_check_indices_cuda::weights":[0,1,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],"dense_to_jagged::dense":[2,1,1,"_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"],"dense_to_jagged::offsets":[2,1,1,"_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"],"dense_to_jagged::total_L":[2,1,1,"_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"],"direct_mapped_lru_cache_populate_byte_cuda::D_offsets":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::lru_state":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::row_alignment":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::time_stamp":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::weights":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::weights_offsets":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lru_cache_populate_byte_cuda::weights_tys":[8,1,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats":[8,1,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lxu_cache_lookup_cuda::invalid_index":[8,1,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices":[8,1,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state":[8,1,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats":[8,1,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"expand_into_jagged_permute_cuda::input_offsets":[7,1,1,"_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"],"expand_into_jagged_permute_cuda::output_offsets":[7,1,1,"_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"],"expand_into_jagged_permute_cuda::output_size":[7,1,1,"_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"],"expand_into_jagged_permute_cuda::permute":[7,1,1,"_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"],"float_or_half_to_fused8bitrowwise_cpu::input":[6,1,1,"_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"],"float_to_FP8rowwise_cpu::forward":[6,1,1,"_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"],"float_to_FP8rowwise_cpu::input":[6,1,1,"_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"],"float_to_fused8bitrowwise_cpu::input":[6,1,1,"_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"],"fused8bitrowwise_to_float_cpu::input":[6,1,1,"_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"],"fused8bitrowwise_to_float_or_half_cpu::input":[6,1,1,"_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"],"fused8bitrowwise_to_float_or_half_cpu::output_dtype":[6,1,1,"_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"],"fused8bitrowwise_to_half_cpu::input":[6,1,1,"_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"],"fusednbitrowwise_to_float_cpu::bit_rate":[6,1,1,"_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"],"fusednbitrowwise_to_float_cpu::input":[6,1,1,"_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"],"fusednbitrowwise_to_float_or_half_cpu::bit_rate":[6,1,1,"_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"],"fusednbitrowwise_to_float_or_half_cpu::input":[6,1,1,"_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"],"fusednbitrowwise_to_float_or_half_cpu::output_dtype":[6,1,1,"_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"],"fusednbitrowwise_to_half_cpu::bit_rate":[6,1,1,"_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"],"fusednbitrowwise_to_half_cpu::input":[6,1,1,"_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"],"generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::logit":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::num_segments":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::positive_weight":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::segment_lengths":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"generic_histogram_binning_calibration_by_feature_cpu::segment_value":[7,1,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],"get_unique_indices_cuda::compute_count":[8,1,1,"_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"],"get_unique_indices_cuda::linear_indices":[8,1,1,"_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"],"get_unique_indices_cuda::max_indices":[8,1,1,"_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"],"half_to_fused8bitrowwise_cpu::input":[6,1,1,"_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"],"histogram_binning_calibration_cpu::bin_ctr_in_use_after":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::bin_ctr_weight_value":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::bin_num_examples":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::bin_num_positives":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::logit":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::lower_bound":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::positive_weight":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"histogram_binning_calibration_cpu::upper_bound":[7,1,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],"host_lxu_cache_slot::C":[8,1,1,"_CPPv419host_lxu_cache_slot7int64_t7int64_t"],"host_lxu_cache_slot::h_in":[8,1,1,"_CPPv419host_lxu_cache_slot7int64_t7int64_t"],"int_nbit_split_embedding_codegen_lookup_function::D_offsets":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::dev_weights":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::indice_weights":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::indices":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_float16_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_float32_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_float8_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_int2_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_int4_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::max_int8_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::offsets":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::output_dtype":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::pooling_mode":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::row_alignment":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::total_D":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::uvm_weights":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::weights_offsets":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::weights_placements":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function::weights_tys":[0,1,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::indices":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::offsets":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::total_D":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys":[0,1,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys":[0,1,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys":[0,1,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],"jagged_1d_to_dense::max_L":[2,1,1,"_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"],"jagged_1d_to_dense::offsets":[2,1,1,"_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"],"jagged_1d_to_dense::padding_value":[2,1,1,"_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"],"jagged_1d_to_dense::values":[2,1,1,"_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"],"jagged_2d_to_dense::max_sequence_length":[2,1,1,"_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"],"jagged_2d_to_dense::offsets":[2,1,1,"_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"],"jagged_2d_to_dense::values":[2,1,1,"_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"],"jagged_dense_elementwise_add::x_offsets":[2,1,1,"_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add::x_values":[2,1,1,"_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add::y":[2,1,1,"_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output::x_offsets":[2,1,1,"_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output::x_values":[2,1,1,"_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output::y":[2,1,1,"_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output_cuda::x_offsets":[2,1,1,"_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output_cuda::x_values":[2,1,1,"_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_add_jagged_output_cuda::y":[2,1,1,"_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_mul::x_offsets":[2,1,1,"_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_mul::x_values":[2,1,1,"_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_dense_elementwise_mul::y":[2,1,1,"_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],"jagged_to_padded_dense::max_lengths":[2,1,1,"_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense::offsets":[2,1,1,"_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense::padding_value":[2,1,1,"_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense::values":[2,1,1,"_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense_forward::max_lengths":[2,1,1,"_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense_forward::offsets":[2,1,1,"_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense_forward::padding_value":[2,1,1,"_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"],"jagged_to_padded_dense_forward::values":[2,1,1,"_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"],"lfu_cache_populate_byte_cuda::D_offsets":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::cache_index_table_map":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::lfu_state":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::linear_cache_indices":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::lxu_cache_state":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::lxu_cache_weights":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::row_alignment":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::total_cache_hash_size":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::weights":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::weights_offsets":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_byte_cuda::weights_tys":[8,1,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"lfu_cache_populate_cuda::D_offsets":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::cache_index_table_map":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::lfu_state":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::linear_cache_indices":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::lxu_cache_state":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::lxu_cache_weights":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::stochastic_rounding":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::total_cache_hash_size":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::weights":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"lfu_cache_populate_cuda::weights_offsets":[8,1,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],"linearize_cache_indices_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"linearize_cache_indices_cuda::indices":[8,1,1,"_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"linearize_cache_indices_cuda::offsets":[8,1,1,"_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"linearize_cache_indices_from_row_idx_cuda::update_row_indices":[8,1,1,"_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"linearize_cache_indices_from_row_idx_cuda::update_table_indices":[8,1,1,"_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],"lru_cache_find_uncached_cuda::gather_cache_stats":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::lock_cache_line":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::lru_state":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::lxu_cache_locking_counter":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::lxu_cache_state":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::max_indices":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::time_stamp":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::unique_indices":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::unique_indices_length":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_find_uncached_cuda::uvm_cache_stats":[8,1,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],"lru_cache_populate_byte_cuda::D_offsets":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::cache_index_table_map":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::gather_cache_stats":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::hash_size_cumsum":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::linear_cache_indices":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::lru_state":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::lxu_cache_state":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::lxu_cache_weights":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::row_alignment":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::time_stamp":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::total_cache_hash_size":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::uvm_cache_stats":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::weights":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::weights_offsets":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_byte_cuda::weights_tys":[8,1,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::D_offsets":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::cache_index_table_map":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::gather_cache_stats":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::hash_size_cumsum":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::linear_cache_indices":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::lock_cache_line":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::lru_state":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::lxu_cache_locking_counter":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::lxu_cache_state":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::lxu_cache_weights":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::stochastic_rounding":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::time_stamp":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::total_cache_hash_size":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::uvm_cache_stats":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::weights":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lru_cache_populate_cuda::weights_offsets":[8,1,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],"lxu_cache_flush_cuda::D_offsets":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::cache_index_table_map":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::lxu_cache_state":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::lxu_cache_weights":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::stochastic_rounding":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::total_D":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::uvm_weights":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_flush_cuda::weights_offsets":[8,1,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],"lxu_cache_locations_update_cuda::lxu_cache_locations":[8,1,1,"_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"],"lxu_cache_locations_update_cuda::lxu_cache_locations_new":[8,1,1,"_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"],"lxu_cache_locations_update_cuda::num_uniq_cache_indices":[8,1,1,"_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"],"lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations":[8,1,1,"_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"],"lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter":[8,1,1,"_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"],"lxu_cache_lookup_cuda::gather_cache_stats":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::invalid_index":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::linear_cache_indices":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::lxu_cache_locations_output":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::lxu_cache_state":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::num_uniq_cache_indices":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"lxu_cache_lookup_cuda::uvm_cache_stats":[8,1,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],"padding_fused_tbe_input_combine_cpu::batch_size":[1,1,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],"padding_fused_tbe_input_combine_cpu::include_last_offsets":[1,1,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],"padding_fused_tbe_input_combine_cpu::indices_list":[1,1,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],"padding_fused_tbe_input_combine_cpu::offsets_list":[1,1,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],"padding_fused_tbe_input_combine_cpu::per_sample_weights":[1,1,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],"permute_pooled_embs_auto_grad::inv_offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad::inv_permute_list":[5,1,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad::offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad::permute_list":[5,1,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad::pooled_embs":[5,1,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_cpu::inv_permute_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_cpu::offset_dim_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_cpu::permute_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_cpu::pooled_embs":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_gpu::inv_permute_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_gpu::offset_dim_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_gpu::permute_list":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_gpu::pooled_embs":[5,1,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],"permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_cpu::inv_permute_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_cpu::offset_dim_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_cpu::permute_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_cpu::pooled_embs":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_gpu::inv_permute_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_gpu::offset_dim_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_gpu::permute_list":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_auto_grad_split_gpu::pooled_embs":[5,1,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_cpu::inv_offset_dim_list":[5,1,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_cpu::inv_permute_list":[5,1,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_cpu::offset_dim_list":[5,1,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_cpu::permute_list":[5,1,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_cpu::pooled_embs":[5,1,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_cpu::inv_offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_cpu::inv_permute_list":[5,1,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_cpu::offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_cpu::permute_list":[5,1,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_cpu::pooled_embs":[5,1,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_gpu::inv_offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_gpu::inv_permute_list":[5,1,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_gpu::offset_dim_list":[5,1,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_gpu::permute_list":[5,1,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"permute_pooled_embs_split_gpu::pooled_embs":[5,1,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],"pruned_array_lookup_cpu::index_remappings":[0,1,1,"_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cpu::index_remappings_offsets":[0,1,1,"_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cpu::indices":[0,1,1,"_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cpu::offsets":[0,1,1,"_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cuda::index_remappings":[0,1,1,"_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cuda::index_remappings_offsets":[0,1,1,"_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cuda::indices":[0,1,1,"_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_array_lookup_cuda::offsets":[0,1,1,"_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_insert_unweighted_cpu::dense_indices":[0,1,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_insert_unweighted_cpu::hash_table":[0,1,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_insert_unweighted_cpu::hash_table_offsets":[0,1,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_insert_unweighted_cpu::indices":[0,1,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_insert_unweighted_cpu::offsets":[0,1,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_cuda::hash_table":[0,1,1,"_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_cuda::hash_table_offsets":[0,1,1,"_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_cuda::indices":[0,1,1,"_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_cuda::offsets":[0,1,1,"_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_unweighted_cpu::hash_table":[0,1,1,"_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets":[0,1,1,"_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_unweighted_cpu::indices":[0,1,1,"_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"],"pruned_hashmap_lookup_unweighted_cpu::offsets":[0,1,1,"_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"],"recat_embedding_grad_output_cuda::grad_output":[3,1,1,"_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"],"recat_embedding_grad_output_cuda::num_features_per_rank":[3,1,1,"_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"],"recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank":[3,1,1,"_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"],"recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank":[3,1,1,"_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"],"recat_embedding_grad_output_mixed_D_batch_cuda::grad_output":[3,1,1,"_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"],"recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank":[3,1,1,"_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"],"recat_embedding_grad_output_mixed_D_cpu::grad_output":[3,1,1,"_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"],"recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank":[3,1,1,"_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"],"recat_embedding_grad_output_mixed_D_cuda::grad_output":[3,1,1,"_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"],"reset_weight_momentum_cuda::D_offsets":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::buffer_ids":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::cache_hash_size_cumsum":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::dev_weights":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::logical_table_ids":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::lxu_cache_state":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::lxu_cache_weights":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::momentum1_dev":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::momentum1_offsets":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::momentum1_placements":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::momentum1_uvm":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::pruned_indices":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::pruned_indices_offsets":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::total_cache_hash_size":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::uvm_weights":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::weights_offsets":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"reset_weight_momentum_cuda::weights_placements":[8,1,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],"tbe_input_combine_cpu::include_last_offsets":[1,1,1,"_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"],"tbe_input_combine_cpu::indices_list":[1,1,1,"_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"],"tbe_input_combine_cpu::offsets_list":[1,1,1,"_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"],"tbe_input_combine_cpu::per_sample_weights":[1,1,1,"_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"],FP8QuantizedToFloat_ref:[6,0,1,"_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"],FP8rowwise_to_float_cpu:[6,0,1,"_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"],FloatToFP8Quantized_ref:[6,0,1,"_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"],_float_to_fused8bitrowwise_cpu_out:[6,0,1,"_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"],_float_to_fusednbitrowwise_gpu_t:[6,0,1,"_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t"],_fused8bitrowwise_to_float_cpu_out:[6,0,1,"_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"],_fusednbitrowwise_to_float_gpu_t:[6,0,1,"_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t"],all_to_one_device:[5,0,1,"_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"],batched_dense_vec_jagged_2d_mul:[2,0,1,"_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"],bounds_check_indices_cuda:[0,0,1,"_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"],dense_to_jagged:[2,0,1,"_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"],direct_mapped_lru_cache_populate_byte_cuda:[8,0,1,"_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],direct_mapped_lxu_cache_lookup_cuda:[8,0,1,"_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],expand_into_jagged_permute_cuda:[7,0,1,"_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"],fbgemm_gpu:[14,3,0,"-"],float_or_half_to_fused8bitrowwise_cpu:[6,0,1,"_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"],float_to_FP8rowwise_cpu:[6,0,1,"_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"],float_to_fused8bitrowwise_cpu:[6,0,1,"_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"],fused8bitrowwise_to_float_cpu:[6,0,1,"_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"],fused8bitrowwise_to_float_or_half_cpu:[6,0,1,"_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"],fused8bitrowwise_to_half_cpu:[6,0,1,"_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"],fusednbitrowwise_to_float_cpu:[6,0,1,"_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"],fusednbitrowwise_to_float_or_half_cpu:[6,0,1,"_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"],fusednbitrowwise_to_half_cpu:[6,0,1,"_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"],generic_histogram_binning_calibration_by_feature_cpu:[7,0,1,"_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"],get_unique_indices_cuda:[8,0,1,"_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"],half_to_fused8bitrowwise_cpu:[6,0,1,"_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"],histogram_binning_calibration_cpu:[7,0,1,"_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"],host_lxu_cache_slot:[8,0,1,"_CPPv419host_lxu_cache_slot7int64_t7int64_t"],int_nbit_split_embedding_codegen_lookup_function:[0,0,1,"_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],int_nbit_split_embedding_codegen_lookup_function_cpu:[0,0,1,"_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"],int_nbit_split_embedding_uvm_caching_codegen_lookup_function:[0,0,1,"_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu:[0,0,1,"_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"],jagged_1d_to_dense:[2,0,1,"_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"],jagged_2d_to_dense:[2,0,1,"_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"],jagged_dense_elementwise_add:[2,0,1,"_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],jagged_dense_elementwise_add_jagged_output:[2,0,1,"_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],jagged_dense_elementwise_add_jagged_output_cuda:[2,0,1,"_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],jagged_dense_elementwise_mul:[2,0,1,"_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"],jagged_to_padded_dense:[2,0,1,"_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"],jagged_to_padded_dense_forward:[2,0,1,"_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"],lfu_cache_populate_byte_cuda:[8,0,1,"_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],lfu_cache_populate_cuda:[8,0,1,"_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"],linearize_cache_indices_cuda:[8,0,1,"_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],linearize_cache_indices_from_row_idx_cuda:[8,0,1,"_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"],lru_cache_find_uncached_cuda:[8,0,1,"_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"],lru_cache_populate_byte_cuda:[8,0,1,"_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"],lru_cache_populate_cuda:[8,0,1,"_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"],lxu_cache_flush_cuda:[8,0,1,"_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"],lxu_cache_locations_update_cuda:[8,0,1,"_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"],lxu_cache_locking_counter_decrement_cuda:[8,0,1,"_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"],lxu_cache_lookup_cuda:[8,0,1,"_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"],padding_fused_tbe_input_combine_cpu:[1,0,1,"_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"],permute_pooled_embs_auto_grad:[5,0,1,"_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],permute_pooled_embs_auto_grad_cpu:[5,0,1,"_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],permute_pooled_embs_auto_grad_gpu:[5,0,1,"_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"],permute_pooled_embs_auto_grad_split_cpu:[5,0,1,"_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],permute_pooled_embs_auto_grad_split_gpu:[5,0,1,"_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],permute_pooled_embs_cpu:[5,0,1,"_CPPv423permute_pooled_embs_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],permute_pooled_embs_split_cpu:[5,0,1,"_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],permute_pooled_embs_split_gpu:[5,0,1,"_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"],pruned_array_lookup_cpu:[0,0,1,"_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"],pruned_array_lookup_cuda:[0,0,1,"_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],pruned_hashmap_insert_unweighted_cpu:[0,0,1,"_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"],pruned_hashmap_lookup_cuda:[0,0,1,"_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"],pruned_hashmap_lookup_unweighted_cpu:[0,0,1,"_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"],recat_embedding_grad_output_cuda:[3,0,1,"_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"],recat_embedding_grad_output_mixed_D_batch_cuda:[3,0,1,"_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"],recat_embedding_grad_output_mixed_D_cpu:[3,0,1,"_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"],recat_embedding_grad_output_mixed_D_cuda:[3,0,1,"_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"],reset_weight_momentum_cuda:[8,0,1,"_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"],tbe_input_combine_cpu:[1,0,1,"_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]},"fbgemm_gpu.split_table_batched_embeddings_ops":{SplitTableBatchedEmbeddingBagsCodegen:[14,4,1,""]},"torch.ops.fbgemm":{batched_dense_vec_jagged_2d_mul:[13,4,1,""],dense_to_jagged:[13,4,1,""],jagged_1d_to_dense:[13,4,1,""],jagged_2d_to_dense:[13,4,1,""],jagged_dense_dense_elementwise_add_jagged_output:[13,4,1,""],jagged_dense_elementwise_add:[13,4,1,""],jagged_dense_elementwise_add_jagged_output:[13,4,1,""],jagged_dense_elementwise_mul:[13,4,1,""],jagged_to_padded_dense:[13,4,1,""],stacked_jagged_1d_to_dense:[13,4,1,""],stacked_jagged_2d_to_dense:[13,4,1,""]}},objnames:{"0":["cpp","function","C++ function"],"1":["cpp","functionParam","functionParam"],"2":["cpp","templateParam","templateParam"],"3":["py","module","Python module"],"4":["py","function","Python function"]},objtypes:{"0":"cpp:function","1":"cpp:functionParam","2":"cpp:templateParam","3":"py:module","4":"py:function"},terms:{"0000":22,"00000000":10,"001":14,"0229":14,"0419":14,"0603":14,"0784":14,"0810":14,"0941":14,"0mib":10,"1068":14,"1200mhz":10,"123":22,"1331":14,"1405":14,"1455":14,"1487":14,"1618":10,"1677":14,"1765":14,"1919":17,"1964":14,"1988":14,"1_all":9,"2012":22,"2016":14,"2021":14,"2051":14,"2176":14,"23028mib":10,"2513":14,"258":21,"2637":14,"2769":14,"2822":21,"287":21,"290":10,"2957":14,"2c3":22,"300mhz":10,"300w":10,"3044":14,"3057":14,"31c":10,"3273":14,"3475":14,"3578":14,"3754":14,"3775":14,"3825":14,"4039":14,"4174":14,"4214":14,"4593":14,"4790":14,"4813":14,"4873":14,"5008":14,"5013":14,"50403":9,"515":10,"5197":14,"5399":14,"5587":14,"565":10,"569":10,"5754":14,"5771":14,"5826":14,"5911":14,"59w":10,"6105":14,"6195":14,"6203":14,"6307":14,"6719":14,"7046":14,"7159":14,"7164":14,"7169":14,"7302":22,"7314":14,"7621":14,"7792":14,"7856":14,"7958":14,"8124":14,"84_cuda11":9,"8528":14,"8614":14,"8757":14,"8770":14,"8902":14,"8952":14,"8991":14,"9426":14,"9427":14,"9520":14,"9801":14,"9821":14,"9968":14,"9980":14,"999":14,"abstract":22,"break":21,"byte":8,"case":[7,9,10,16],"class":[21,22],"const":[0,1,2,3,5,6,7],"default":[7,9,10,14,19,20,21],"export":[9,11],"final":7,"float":[6,13,14],"function":9,"import":[9,10,14,19,21],"int":[6,13,14,19],"long":[14,21,22,25],"new":[8,17,21],"public":[15,16,22],"return":[7,13,14],"short":[21,22],"static":[17,19],"true":[14,19,22],"try":[21,22],"void":[0,6,8],"while":[9,17],Being:15,Bus:10,But:21,DOS:22,For:[11,15,19,21,22],Its:21,One:[21,22],THE:21,That:[7,21],The:[7,10,11,13,14,15,17,19,22],Then:17,There:[17,22],These:[17,19,21],Using:[15,22],VMS:22,With:[19,21],__getattr__:10,__init__:[10,21],__version__:9,_bfloat16_to_float_gpu:6,_build:17,_fbgemm_gpu_doc:10,_float_or_half_to_fusednbitrowwise_gpu:7,_float_to_bfloat16_gpu:6,_float_to_fp8rowwise_gpu:6,_float_to_fused8bitrowwise_cpu_out:6,_float_to_fused8bitrowwise_gpu:6,_float_to_fusednbitrowwise_gpu:6,_float_to_fusednbitrowwise_gpu_t:6,_float_to_hfp8_gpu:6,_float_to_msfp_gpu:6,_float_to_paddedfp8rowwise_gpu:6,_fused8bitrowwise_to_float_cpu_out:6,_fused8bitrowwise_to_float_mixed_dim_gpu:6,_fused8bitrowwise_to_single_or_half_precision_gpu:6,_fusednbitrowwise_to_float_gpu_t:6,_fusednbitrowwise_to_float_or_half_gpu:6,_fusednbitrowwise_to_half_gpu:6,_half_to_fusednbitrowwise_gpu:6,_hfp8_to_float_gpu:6,_jit_get_oper:10,_msfp_to_float_gpu:6,_op:10,_opnamespac:10,_single_or_half_precision_to_fused8bitrowwise_gpu:6,_static:17,_theme:26,_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph:10,a100:[9,10],a10g:10,a1b:22,a_offset:[2,13],a_valu:[2,13],aarch64:10,abl:[16,17],about:[15,19],abov:[7,10,20,21],abus:15,accept:[7,15,16],access:[14,19],accident:9,accordingli:19,account:15,accumsan:24,accur:17,accuraci:6,achiev:[6,10],across:[7,9,19],act:15,action:[15,21],activ:[16,17,21],actual:9,adagrad:14,adam:14,adapt:15,add:[13,16,19,21,26],add_stylesheet:17,added:16,addit:[9,13],address:[9,15,22],adipisc:[22,24],adjac:21,adjust:21,advanc:[15,22],advis:21,aenean:24,after:[7,9,10,11,14],again:21,against:[9,11],age:15,agre:16,algorithm:14,align:[15,21],aliquam:24,aliquet:[22,24],all:[7,8,9,10,14,15,21,22],all_to_one_devic:5,allow:19,along:[9,10],alpha:22,alreadi:[10,16],also:[9,14,15,19,21,22],although:21,altogeth:19,alwai:[9,21],amd:[9,10],amdgpu:9,amet:[22,24],amount:14,anaconda:9,analyt:19,analytics_id:19,ancient:21,ani:[7,13,15,16,17,19,21],ann:21,anonym:21,anoth:[21,22],answer:15,ant:24,anyon:22,anyth:[21,22],api:[12,16,20],app:17,appear:[10,15,21],appli:[7,9,14,15,17],applic:[9,14],appoint:15,appropri:15,apt:9,arab:22,arch:9,architectur:[9,10],archiv:9,arcu:[22,24],area:[13,23],arg:[13,25],argument:[7,21,22],around:[17,21,24],arrai:[7,13],arriv:9,artifact:9,assign:20,assoc:8,assum:7,attack:15,attempt:9,attent:15,attribut:[10,21],attributeerror:10,auctor:24,augu:24,author:22,authorit:[9,10],auto:[10,21,22],autodoc:[21,22],automat:[7,11,21],avail:[9,15,17,19],avgpwr:10,avoid:9,awai:21,awaken:21,b_ofset:0,back:[8,9,10,21],backend:20,background:21,backlink:21,backward:14,bag:[7,14],bag_offset:7,ban:15,bar:[19,21],bare:9,base:[7,8,9,17,21],bash:[9,10],bashrc:9,basi:21,basic:[7,22],batch:[2,7,12,13],batch_siz:1,batched_dense_vec_jagged_2d_mul:[2,13],bathroom:21,bdist_wheel:9,beat:22,becaus:9,becom:9,bee:21,been:[17,22],befor:[7,14,17],begin:21,begun:21,behav:23,behavior:15,behind:21,belong:21,below:21,bench:11,benchmark:12,besid:21,best:[15,21],beta1:14,beta2:14,better:6,between:[21,22],bfloat16:6,bia:6,bibendum:24,bibliograph:22,bigger:21,bin:[7,9],bin_boundari:7,bin_ctr:7,bin_ctr_in_use_aft:7,bin_ctr_weight:7,bin_ctr_weight_valu:7,bin_id:7,bin_num_exampl:7,bin_num_posit:7,binari:9,bind:21,bit:6,bit_rat:[6,7],bitbucket:19,bitbucket_url:19,blandit:24,blank:21,blob:[9,19],block:25,blue:21,bodi:[15,21,22],bold:21,bool:[6,8,14,19],border:21,both:[9,19,21],bottom:19,bound:7,boundari:14,bounding_box_s:6,bounds_check_indices_cuda:0,bounds_check_mod:[0,14],boundscheckmod:14,bounti:16,box:21,bracket:21,brain:6,branch:[16,17],bread:21,brontosaurus:21,browser:21,bucket:[7,9],buffer_id:8,bug:16,bui:22,build:[4,10,11,12,17,20,25],builder:9,built:[9,10],bundl:[9,10],button:[19,21],c10:[0,2,8],cach:[8,9,14,17],cache_algorithm:14,cache_hash_size_cumsum:[0,8],cache_index_table_map:[0,8],cache_load_factor:14,cache_precis:14,cache_reserved_memori:14,cache_set:[8,14],cachealgorithm:14,cackl:22,cali:7,calibart:7,calibr:7,calibrated_predict:7,calibration_target:7,call:[10,21],can:[7,9,10,17,19,21],canada:22,cannot:[4,20],canon:19,canonical_url:19,cap:10,capabl:[9,11],capac:14,capit:21,caption:[21,24,25],cat:9,caus:[9,10,19],cell:22,cento:9,certain:9,chang:[16,19],changelog:25,channel:[9,10,20],charact:21,characterist:15,check:[12,14],child:22,circumst:15,clang:9,clarifi:15,classifi:22,clean:[9,17,21],clear:[9,16],cli:10,click:9,clickabl:21,clip:14,clone:[9,17],closet:21,cmake:9,code:[16,20,22],collapse_navig:19,collat:22,colon:21,color:21,column:[14,22],com:[9,15,16,17],combin:12,come:20,command:[9,10,21,22],comment:[15,17,21],commit:[15,17],commodo:24,common:[9,10,15,21],commonli:22,commun:15,compil:19,complaint:15,complet:[9,16],comprehens:12,comput:[7,9,10,14,21],compute_count:8,computedevic:14,conatin:14,conceiv:21,concis:10,conda_prefix:9,condimentum:24,condit:21,conf:[17,19,26],confidenti:15,config:17,configur:25,congu:24,connect:21,consectetur:[22,24],consid:15,consist:21,construct:[9,10,15,21,22],consult:20,contact:[15,22],contain:[9,13,14,17,21,22],content:25,contigu:7,continu:21,contribut:15,contributor:15,conval:24,convert:[6,13],copi:22,copyright:22,correct:[9,15,19],correctli:[10,17],correspond:[7,8],could:15,counter:8,coupl:17,cours:9,coven:15,coverag:13,cppnode:14,cpu:[5,11,12],cpu_onli:9,cra:24,creat:[9,15,16,17,21],critic:15,cross:21,css:17,css_file:17,ctr:7,cu121:[9,10],cub:9,cub_dir:9,cuda:[5,12,14],cuda_arch_list:9,cuda_bin_path:9,cuda_cmake_macro:9,cuda_launch_block:11,cuda_runtim:9,cuda_vers:9,cuda_visible_devic:11,cudacxx:9,cudnn_include_dir:9,cudnn_librari:9,cudnn_url:9,cumsum_dim_sum_per_rank:3,curabitur:24,curl:21,current:[9,10,14,17,19],cursu:24,cut:21,d_offset:[0,6,8],dapibu:24,data:[12,14,21,25],data_item_1:20,date:[9,10,22],david:22,dcmake_c_flag:9,dcmake_cxx_flag:9,deb:9,debian_frontend:9,debug:11,decai:14,declar:10,decoupl:14,decrement:8,dedic:22,dedupl:8,deem:15,deep:19,def:21,defin:[9,15,19],definit:21,deiti:21,delet:17,demo:[17,21,25],demonstr:[21,22,23],denot:21,dens:[2,13],dense_indic:0,dense_to_jag:[2,13],depend:[9,10,17],depth:19,deriv:7,derogatori:15,descclassnam:21,descnam:21,descript:[16,22],desir:[9,13,22],destini:22,destroi:22,detail:[10,15],detect:11,determin:[9,15],determinist:9,dev:9,dev_weight:[0,8],devel:9,develop:[10,21,22],devic:[5,9,11,14],dhip_root_dir:9,diam:24,dictum:24,dictumst:24,did:21,didn:21,dieedg:10,differ:[2,7,15,19],difficult:10,dignissim:24,dim_sum_per_rank:3,dimens:[2,7,13,14],direct:[8,10,25],direct_mapped_lru_cache_populate_byte_cuda:8,direct_mapped_lxu_cache_lookup_cuda:8,directoi:11,directori:[4,9,11,16,17],disabl:[9,15,19,20],disclosur:16,disconnect:21,discret:21,disp:10,displai:[10,19],display_github:19,display_gitlab:19,display_vers:19,distribut:9,divid:7,django:20,dkm:9,dll_public:[6,7],doc:[19,20,21,26],docs_dir:17,docstr:[21,22],document:[16,17,19,21,22,25,26],docutil:[21,22],doe:[0,10,21],doesn:21,doing:10,dolor:[22,24],domain:22,don:[7,9,19,21,22],done:[9,10],donec:[22,24],dothismethod:21,dotpai:20,dotpayprovid:20,doubl:[2,6,7,21],down:19,download:[9,10,25],doxygen:4,doxygengroup:4,dream:22,driver:9,drop:19,dtorch_cuda_arch_list:9,dtorch_use_hip_dsa:9,dtype:14,dual:21,due:[9,20,21],dui:[22,24],durat:21,dure:[9,14],e402:10,each:[7,9,13,14,17,19,21],ear:21,easi:16,ebit:6,ecc:10,echo:21,econom:15,ectr:7,edg:21,edit:[15,19],educ:15,effect:19,efficitur:24,egesta:24,eget:24,egg:10,either:[7,9,10,17,19,21],electron:15,eleifend:22,element:[8,21,22,25],elementum:24,elementwis:13,elit:[22,24],elk:21,els:[21,22],emb:22,embed:[9,10,12,21],embedding_spec:14,embeddingloc:14,empathi:15,emphasi:21,empti:[13,17,22],enabl:[11,17,19],encount:10,end:[10,17,21],energi:21,enforce_hbm:14,engin:19,enhanc:21,enim:24,ensur:[9,10,16,17],entir:21,entiti:21,entrypoint:9,env:[9,10,17],env_nam:[9,10],environ:[11,12,15],eps:14,epsilon:14,equat:21,erat:24,eric:21,ero:24,error:[10,21],especi:[10,17],essenc:21,est:24,eta:14,etc:[9,14,19,21],ethnic:15,etiam:24,euismod:24,event:15,everyon:15,exact_adagrad:14,exact_rowwise_adagrad:14,exact_rowwise_weighted_adagrad:14,exact_sgd:14,exampl:[7,9,10,11,13,14,15,19,20,22,25],exceedingli:21,except:10,excerpt:22,exclus:7,execut:[10,11],exert:21,exist:[9,17],expand:7,expand_into_jagged_permut:7,expand_into_jagged_permute_cuda:7,expect:[15,17],experi:15,explicit:[15,21],exponent_bia:6,expos:10,express:[15,21],ext:[21,22],extens:7,extern:[19,21],extract:9,extrem:21,eyes:21,f401:10,face:15,facebook:16,facilisi:24,facto:21,fail:[10,11],failur:[9,10],fair:15,faith:15,fall:[7,9,10],fals:[14,19,20,21,22],fame:24,famili:17,fan:10,faq:15,far:21,fatal:14,faucibu:24,fbgemm:[9,10,13],fbgemm_:9,fbgemm_cpu:9,fbgemm_gpu:[4,12,14],fbgemm_gpu_cpu:9,fbgemm_gpu_lib_path:9,fbgemm_gpu_pi:[9,10],fbgemm_gpu_rocm:9,fbgemm_test_with_rocm:11,fbgemm_vers:9,featur:[2,7,14],feature_requires_grad:14,feature_table_map:14,feli:24,fetch:8,feugiat:[22,24],few:17,fifth:22,figur:[22,24],file:[9,10,16,17,19,20,22,26],final_calibrated_predict:7,find:[4,8,9],fine:7,finibu:24,first:[9,17,21,22],fit:21,fix:[7,21],flag:9,float_or_half_to_fused8bitrowwise_cpu:6,float_to_fp8rowwise_cpu:6,float_to_fused8bitrowwise_cpu:6,floattofp8quantized_ref:6,flow:[9,21],flox:21,flush:[8,21],focal:9,focus:15,fold:22,folder:17,follow:[7,9,10,15,17,19,21,22,26],foo:[21,22],forc:19,forg:9,fork:16,form:21,format:[8,21,22],former:10,formula:7,forth:22,forward:6,foster:15,found:[9,10,17,21],four:[21,22],fp16:14,fp32:14,fp8_exponent_bia:0,fp8_exponent_bit:0,fp8quantizedtofloat_ref:6,fp8rowwise_to_float_cpu:6,frac:21,free:15,fringilla:24,from:[4,7,8,9,10,11,14,15,16,17,19,20,21,22],full:[9,10],further:15,fusc:24,fuse:14,fused8bitrowwise_to_float_cpu:6,fused8bitrowwise_to_float_or_half_cpu:6,fused8bitrowwise_to_half_cpu:6,fusednbitrowwise_to_float_cpu:6,fusednbitrowwise_to_float_or_half_cpu:6,fusednbitrowwise_to_half_cpu:6,gatewai:20,gather_cache_stat:8,gcc:9,gdc:9,gdcu:9,gender:15,gener:[7,9,10,12,17,19,21,22,25],generic_histogram_binning_calibration_by_feature_cpu:7,gentoo:9,get_unique_indices_cuda:8,gfx906:9,gfx908:9,gfx90a:9,gfx:9,git:[9,17,25],github:[9,16,17,19],github_url:19,gitlab:19,gitlab_url:19,give:[19,21],given:[9,13],glibc_:9,glibcxx:9,glibcxx_:9,goe:21,good:[11,15,21],goodger:22,googl:19,googleapi:17,got:21,gpu:[9,10,11],gracefulli:15,grad_fn:14,grad_output:3,gradient:14,gradient_clip:14,grain:7,gravida:24,great:21,grep:9,group:[4,21,22],grunt:17,guangzhou:22,guarante:10,gui:21,guid:[9,20],gxx_linux:9,h_in:8,habit:24,habitass:24,hac:24,half:21,half_to_fused8bitrowwise_cpu:6,harass:15,harm:15,has:[7,10,16,21,22],hash_size_cumsum:8,hash_tabl:0,hash_table_offset:0,have:[7,8,15,17,21],haven:16,hbm:14,header:[9,19,21,22],heart:22,heaven:21,heck:21,hefti:17,heh:22,hehe:22,height:21,hendrerit:24,here:[9,16,19,21,22],hexagram:21,hfp8:6,hidden:19,high:19,higher:[19,21],highlight:21,hip:9,hip_launch_block:11,hipifi:9,hiplibsdk:9,his:21,histogram:7,histogram_binning_calibration_cpu:7,hit:14,holder:23,holi:21,home:9,homepag:9,hope:22,host_lxu_cache_slot:8,hour:9,how:[9,10,11,21,23,25],howev:[9,19,20],html:[15,17,21],html_context:17,html_theme:[17,26],html_theme_opt:[17,19],html_theme_path:[17,26],http:[9,10,15,16,17,19,21],human:21,humankind:22,hybrid:6,hyperlink:21,hyphen:21,hypothesi:[9,10],iaculi:24,icon:[19,21],idea:21,ident:15,identit:13,ignor:[11,14],iii:22,imag:10,imageri:15,imperdiet:24,implement:20,implicit:21,improv:22,inappropri:15,incid:15,includ:[5,9,15,19,21],include_last_offset:1,includehidden:19,inclus:15,incorpor:22,incorrectli:10,incred:25,indent:21,index:[7,8,9,10,17,19,25],index_remap:0,index_remappings_offset:0,indic:[0,8,14,19,21],indice_weight:0,indices_list:1,indirect:21,individu:15,info:[10,12],inform:[15,21],init_embedding_weights_uniform:14,initi:21,injuri:21,inlin:[22,25],inner:22,inplac:8,input:[2,6,7,12,13,14,22],input_offset:7,input_t:6,inputtensor:5,insert:8,insid:[9,10,17,21],instal:[11,12,17,25],install_5:9,install_cuda:9,instanc:15,instanti:9,instruct:[12,16,17],insult:15,int64_t:[0,1,2,3,6,7,8],int8:14,int_nbit_split_embedding_codegen_lookup_funct:0,int_nbit_split_embedding_codegen_lookup_function_cpu:0,int_nbit_split_embedding_uvm_caching_codegen_lookup_funct:0,int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu:0,integ:24,intent:21,interact:21,interdum:24,interest:[15,21],interfac:10,interfer:21,intern:21,interpol:21,interpret:21,inv_offset_dim_list:5,inv_permute_list:5,invalid_index:8,investig:15,invoc:9,ipso:21,ipsum:[22,24],isn:[19,21],isol:[10,12],issu:[2,9,10,15],ital:21,item:[17,20,22],its:[7,9,14,15,21],jag:12,jagged_1d_to_dens:[2,13],jagged_2d_to_dens:[2,9,10,13],jagged_dense_dense_elementwise_add_jagged_output:13,jagged_dense_elementwise_add:[2,13],jagged_dense_elementwise_add_jagged_output:[2,13],jagged_dense_elementwise_add_jagged_output_cuda:2,jagged_dense_elementwise_mul:[2,13],jagged_to_padded_dens:[2,13],jagged_to_padded_dense_forward:2,jan:22,jinja2:9,jinja:9,json:17,just:[21,23],justo:[22,24],keep:9,kei:[17,21],kept:22,kernel:11,keyboard:21,keyjaggedtensor:7,know:[19,21],knowledg:21,known:[9,14],kwarg:13,label:[9,21],lacinia:24,lacu:24,lamb:14,lambda:21,lang:20,languag:[2,15,20,21,22],laoreet:24,lar:14,larg:[6,19,21],larger:19,lars_sgd:14,last:10,later:9,latest:[9,19],lato:17,latter:10,launch:10,layer:7,layout:12,ld_library_path:10,lead:21,leader:21,leadership:15,learn:14,learning_r:14,leas:22,least:[21,22],lectu:[22,24],left:[19,21],legend:21,length:[2,7,13,14,22],leo:24,let:[19,21],letter:22,level:[7,15,25],lfu:[8,14],lfu_cache_populate_byte_cuda:8,lfu_cache_populate_cuda:8,lfu_stat:8,lib:[9,10],libcxx_path:9,libero:[22,24],libnvidia:[9,10],librari:[9,12],libstdc:9,libtorch:10,light:21,ligula:24,like:[17,20,21],limit:20,line:[10,22],linear:8,linear_cache_indic:8,linear_indic:8,linearize_cache_indices_cuda:8,linearize_cache_indices_from_row_idx_cuda:8,link:[10,19,20,25],lint:16,linux:[9,10],list:[9,13,14,25],liter:22,literal:22,literal_block:21,live:[17,21],load:9,loborti:[22,24],local:19,local_instal:9,localhost:17,locat:[8,9],lock:20,lock_cache_lin:8,log:10,logical_table_id:8,logit:7,logo_onli:19,lone:22,longer:[7,19],look:[8,14,17],lookup:[0,8],lorem:[22,24],lose:19,loss:6,lot:9,lower:[7,22],lower_bound:7,lru:[8,14],lru_cache_find_uncached_cuda:8,lru_cache_populate_byte_cuda:8,lru_cache_populate_cuda:8,lru_stat:8,luctu:24,lxu:14,lxu_cache_flush_cuda:8,lxu_cache_loc:[0,8],lxu_cache_locations_new:8,lxu_cache_locations_output:8,lxu_cache_locations_update_cuda:8,lxu_cache_locking_count:8,lxu_cache_locking_counter_decrement_cuda:8,lxu_cache_lookup_cuda:8,lxu_cache_miss_timestamp:8,lxu_cache_st:[0,8],lxu_cache_weight:[0,8],lxu_stat:0,machin:[9,10,11],mad:21,made:[9,21],maecena:24,magna:24,mai:[9,10,15,21,22],mail:15,main:[9,19,21,23],main_run:10,maintain:[15,17],make:[8,9,15,16,17,21,23],malesuada:24,man:[21,22],manag:[9,10,14],mani:[19,21,22],manual:[10,20,21],manylinux1_:9,map:[7,8,14],mark:[17,19],markup:[22,25],markup_process:21,massa:24,master:16,math:25,matmul:13,matrix:13,matti:22,mauri:[22,24],max:[14,19],max_b:0,max_float16_d:0,max_float32_d:0,max_float8_d:0,max_gradi:14,max_indic:8,max_int2_d:0,max_int4_d:0,max_int8_d:0,max_l:2,max_length:[2,13],max_n:13,max_po:6,max_sequence_length:[2,13],maximu:24,maximum:13,mayb:21,mbit:6,mclk:10,mean:[14,17],meant:17,mechan:9,media:15,medium:21,member:15,memori:[10,12,14],men:21,mental:21,menu:[17,19,21,25],menuselect:21,merg:12,merge_pooled_embed:[9,10],meta:25,metadata:19,metal:9,meth:21,method:21,metric:14,metu:24,microsoft:6,middl:21,mig:10,might:19,min_po:6,mind:21,mine:21,miniconda3:9,miniconda:10,miniconda_prefix:9,minim:9,minimum:9,misbuild:19,miss:[8,9,21],mmb:21,mod:25,mode:[11,14],model:[6,7],modifi:[17,22],modul:[7,10,14,20,21,22],molesti:24,momentum1_dev:8,momentum1_offset:8,momentum1_plac:8,momentum1_uvm:8,momentum:14,morbi:24,more:[9,14,19,22],most:[9,10,17],mother:21,motion:21,mous:21,msfp:6,much:[9,19,21],multipl:[13,14,21,22],multipli:[13,14],must:[9,10,11,14,21,22],mutil:22,myclass:21,mycondaenv:10,myself:22,nabla:21,nam:[22,24],name:[9,10,21,22],nation:15,natur:[2,21],nav:[19,25],navig:19,navigation_depth:19,ncol:6,nec:24,necessari:[9,15],need:[9,10,11,16,17,21],neither:9,nequ:[22,24],nest:[21,22],net:[21,22],netu:24,newer:9,next:[17,19,21,22],nibh:[22,24],nickel:21,night:22,nightli:[9,10],ninja:9,nisi:24,nisl:24,node:17,non:[14,22,24],none:[14,19,21],nonetheless:21,nonexist:21,noninteract:9,noplot:17,noqa:10,nor:9,normal:21,note:[8,9,10,17,19,21],now:21,npm:17,nrow:6,nulla:24,num_bin:7,num_exampl:7,num_features_per_rank:3,num_po:7,num_seg:7,num_uniq_cache_indic:8,number:[7,9,13,14,19],numer:22,numpi:[9,10],nunc:24,nvcc:9,nvidia:9,nvml:9,nvml_lib_path:9,objdump:9,object:10,oblig:15,observ:7,occur:2,odio:[22,24],off:10,offens:15,offici:[9,15],offlin:15,offset:[0,2,7,8,13,14],offset_dim_list:5,offsets_list:1,often:[2,21],older:[9,10],onc:[10,16,17],one:[7,8,13,14,17,21],ones:21,onli:[7,8,11,12,16,21],onlin:15,open:[15,16,17],opensourc:15,oper:[9,10,12],oppos:9,ops:[10,13],optim:[6,14],optimtyp:14,option:[0,2,8,9,13,14,21,25],orchestra:21,orci:24,order:[6,16],org:[9,10,15,19,21],organ:22,orient:15,ornar:[22,24],other:[10,15,20,21],otherwis:[10,15],out:[9,17,21],outlin:16,output:[2,4,6,7,13,14,19,21,22],output_dtyp:[0,6,14],output_offset:7,output_permut:7,output_s:7,output_t:6,outsid:[13,21],over:[9,21],overload_nam:10,overrid:17,own:21,packag:[11,12,17],package_nam:9,package_vari:9,pad:13,padding_fused_tbe_input_combine_cpu:1,padding_valu:[2,13],page:[16,23,25],pair:[8,21],pane:21,paragraph:[22,25],parambin_ctr_weight_valu:7,paramet:[7,13,14,25],pars:21,parser:21,part:[19,20,21],partial:21,partial_rowwise_adam:14,partial_rowwise_lamb:14,particip:15,pass:[7,14,16],past:21,path:[9,17],payment:20,pellentesqu:24,peopl:21,pep:21,per_sample_weight:[1,14],perf:10,perform:[6,7],perman:15,permiss:15,permit:21,permut:[7,12],permute_list:5,permute_pooled_embs_auto_grad:5,permute_pooled_embs_auto_grad_cpu:5,permute_pooled_embs_auto_grad_gpu:5,permute_pooled_embs_auto_grad_split_cpu:5,permute_pooled_embs_auto_grad_split_gpu:5,permute_pooled_embs_cpu:5,permute_pooled_embs_split_cpu:5,permute_pooled_embs_split_gpu:5,persist:[10,21],person:15,pharetra:24,phasellu:24,phi:21,philosoph:21,phrase:21,physic:15,pid:10,pin:20,pip:17,place:[9,14,21,22,23],placement:14,placerat:24,plat:9,platea:24,platform:9,platform_nam:9,pleas:[16,21],point:[6,13,17,19,20,21],polici:15,polish:20,polit:15,pool:[12,14],pooled_emb:5,pooling_mod:[0,14],poolingmod:14,popular:20,portion:21,porttitor:[22,24],posit:[7,14,15,19],positive_weight:7,possibl:[16,21],post47:10,post:[12,15],posuer:[22,24],potenti:24,power:21,praesent:24,pre:[7,9,10],preced:[9,21],predict:7,prefer:10,prefix:[9,21],presenc:9,present:9,preserv:21,press:21,pretium:24,prev_next_buttons_loc:19,preview:17,previou:19,primal:21,print:[9,10,14,21],printenv:9,prior:[9,10],privat:15,problem:[9,21],problemat:21,process:[2,10,16,17,20,21],processor:9,produc:21,profession:15,program:16,programm:21,progress:22,proin:24,project:[4,15,16,17,20,25],prompt:9,properli:9,properti:19,prose:21,provid:[9,10,11,12,21],provok:21,pruned_array_lookup_cpu:0,pruned_array_lookup_cuda:0,pruned_hashmap_insert_unweighted_cpu:0,pruned_hashmap_lookup_cuda:0,pruned_hashmap_lookup_unweighted_cpu:0,pruned_indic:8,pruned_indices_offset:8,publish:15,pull:[9,10],purchas:20,purpos:[13,14],puru:24,put:21,pwr:10,pwrcap:10,py310:9,py3:10,pyopenssl:9,pytest:11,pytestcollectionwarn:11,python3:10,python:[9,11,12,17,21,22],python_tag:9,python_vers:9,pytorch:12,pytorch_project:17,pytorch_rocm_arch:9,pytorch_sphinx_them:[17,19,26],pytorch_them:17,qualified_op_nam:10,quantiz:12,quantize_ops_test:11,question:15,qui:[22,24],quisqu:24,quot:22,race:15,radeon:9,rais:10,rang:7,rank:[7,19],rate:14,raw:19,read:[14,17,19,21],reader:21,readi:17,real:7,reason:[10,15],reattribut:22,recat_embedding_grad_output_cuda:3,recat_embedding_grad_output_mixed_d_batch_cuda:3,recat_embedding_grad_output_mixed_d_cpu:3,recat_embedding_grad_output_mixed_d_cuda:3,recent:[9,10],recommend:[2,9,10,21],record:14,record_cache_metr:14,record_cache_miss_count:14,record_tablewise_cache_miss:14,recordcachemetr:14,recurs:9,redist:9,redistribut:22,reduc:6,ref:21,refer:[9,12,20,25],referenc:[9,17],reflect:9,regard:[15,21],regardless:[15,22],reject:15,relat:21,releas:[10,21],relev:10,reli:9,reliabl:9,religion:15,reload:17,remov:[15,17,19],render:19,rent:22,repercuss:15,repo:[9,10,16,17],report:[10,15],repositori:[17,19,26],repres:[15,21],represent:15,reproduc:[9,10,16],request:14,requir:[9,10,14,17,19],reserv:14,reset_weight_momentum_cuda:8,resolv:10,respect:[10,15,17],respons:21,rest:[9,10,21,22],restructuredtext:[21,22],result:[7,13,15,17,19],revert:19,review:15,revis:[21,22],revisit:21,rfc:21,rho_:21,rhoncu:24,right:[15,21],risu:24,rocm5:[9,10],rocm:12,rocm_path:9,rocminfo:9,role:21,roman:22,room:21,root:[10,16,17,19],round:14,row:[2,8,13,14,22],row_align:[0,8],row_dim:6,rows_per_t:0,rowwis:14,rst:[19,21],rsx:11,ruler:21,run:[9,10,11,17,21],runtim:9,runtimeerror:10,rutrum:[22,24],safe:16,sage:21,sagitti:[22,24],sai:22,said:21,same:[7,9,13,19,21],sampl:21,sapien:24,scelerisqu:24,scientist:21,scikit:[9,10],sclk:10,scratch:10,screen:19,script:[9,10],scroll:[19,23],search:19,second:[17,21],section:[5,9,19,21,22,23,25],secur:16,sed:[9,22,24],see:[9,10,15,17,21],seen:[21,22],segment_length:7,segment_valu:7,select:[9,20,23],sell:22,seller:20,seller_id:20,sem:24,semant:21,semper:24,senectu:24,sens:21,sentenc:21,sentinel:8,separ:15,sequenc:21,seriou:10,servic:21,session:21,session_nam:21,set:[8,11,12,13,14,15,17,19,23,26],setup:[9,10,17],setup_env:[9,10],sex:15,sexual:15,sgd:14,shape:14,shell_command:21,shift:21,shortcut:9,shorthand:21,should:[7,8,10,16,17,19,21,24],show:[15,19,21],shown:[19,21],side:19,sidebar:[19,25],sigmoid:7,signatur:10,signific:21,significantli:19,silent:9,similar:14,simlar:0,simpl:[21,22],simpli:9,sin:21,sinc:[9,21],sing:21,singl:21,sink:21,sit:[7,22,24],site:[10,17,21],six:21,sixth:22,size:[6,7,13,14,15,19],size_t:6,slash:19,slot:8,sm70:[9,10],sm80:10,small:6,smi:10,social:15,socio:15,sodal:24,softwar:21,sollicitudin:24,solv:2,some:[9,17,20,21],some_funct:21,someth:[17,21],someurl:21,sort:[7,8,9],sourc:[16,17],sourceforg:[21,22],space:[15,21,22],spaces_and_linebreak:21,span:22,spars:[2,12],sparse_ops_test:11,sparsetyp:14,spec:14,specif:[7,9,14,15,21],specifi:[7,9,13,14,17,19,21],sphinx:[19,20,21,22,26],sphinx_rtd_them:[21,22],spirit:21,split_embedding_inference_converter_test:11,split_embedding_weight:14,split_table_batched_embeddings_benchmark:11,split_table_batched_embeddings_op:14,split_table_batched_embeddings_ops_common:14,split_table_batched_embeddings_ops_train:14,split_table_batched_embeddings_test:11,splitlookupfunction_sgd_op:14,splittablebatchedembeddingbagscodegen:14,src:17,stabl:19,stacked_jagged_1d_to_dens:13,stacked_jagged_2d_to_dens:13,stale:9,stand:21,standalon:21,standard:21,stapl:22,start:[13,22],state:[9,17],statement:21,statisct:7,statist:7,statu:[15,22],std:[1,2,3,5,7,8],step:[9,10],stick:19,sticki:[19,25],sticky_navig:[19,23],still:[7,9],stochast:14,stochastic_round:[8,14],storag:[6,8],store:[7,8],strang:21,stream:9,street:22,string:[10,19],strong:21,strongli:21,structur:[13,19,21,25],structuredtext:21,stub:22,stuff:21,style:[17,19,21,22],style_external_link:19,sub:21,submenu:25,submit:16,submodul:9,subscript:21,subsect:21,substitut:21,subtitl:21,subtre:26,success:17,successfulli:17,suffici:[7,16],suit:16,sum:[7,13,14],superscript:21,suppli:21,support:[9,10,19,20],sure:[9,16],suscipit:[22,24],suspendiss:24,symbol:21,symint:2,symintarrayref:2,symlink:26,sysroot:9,sysroot_linux:9,system:[2,9,10],tabl:[7,12,25],table_offset:7,tag:[9,21],take:[9,15,17,19,21],taken:21,tar:[9,21],target:[7,9],target_devic:5,task:17,tbe:12,tbe_input_combine_cpu:1,team:15,techniqu:6,tell:21,tellu:24,temp:10,templat:[6,9,19],temporari:15,temporarili:15,tempu:24,tensor:[0,1,3,5,6,7,8,12,14],term:[21,22],termin:9,test:[9,10,12,16,21,22],test_py_modul:[21,25],text:[22,24],tha:10,than:[9,20,21],thei:[9,15,19,21],them:[8,17,19],theme:25,themselv:17,theoret:7,theori:21,therefor:21,theta:21,thi:[2,5,7,9,10,12,15,16,17,19,20,21,23,24,25],thicker:21,thin:21,thing1:21,thing2:21,thing3:21,thing:21,think:21,third:22,those:[13,16,17,21],though:10,thought:21,threaten:15,three:[21,22],through:[16,21],thu:[9,14,21],time:[9,10,19,21],time_stamp:8,timestep:8,tincidunt:24,titles_onli:19,toctre:19,todo:19,too:[19,21,22],tool:12,toolchain:[9,10],toolkit:10,top:[19,23],torch:[9,10,13,14],torch_cuda_arch_list:9,tortor:24,total:[13,14],total_cache_hash_s:[0,8],total_d:[0,8,14],total_l:[2,13],toward:15,traceback:10,track:16,trail:19,train:14,transfer:20,transform:12,transmit:21,transpar:16,trash:21,tree:[16,19],tristiqu:24,troll:15,tue:22,tupl:[1,2,7,8,14],turpi:24,tutorials_dir:17,two:[7,13,14,17,21,22,26],txt:[9,17],type:[10,13,14,21],typenam:6,ubuntu22:9,ubuntu:9,ugli:21,uint8_t:[6,8],ultric:24,unabl:9,unaccept:15,unam:9,unbroken:21,uncach:8,uncalibr:7,uncorr:10,under:[9,10,16,21],uniqu:8,unique_indic:8,unique_indices_length:8,univers:21,unlimit:19,unpack:9,unreferenc:21,unrestrict:21,unset:9,until:17,unwelcom:15,updat:[8,9,10,14,16],update_row_indic:8,update_table_indic:8,upgrad:9,upon:19,upper:22,upper_bound:7,uri:21,url:[9,10,19],urna:24,usag:[10,21],use:[7,11,14,15,16,21],usecas:9,used:[7,9,11,14,21],useful:[9,21],user:[21,22],uses:9,using:[14,15,17,19,20,21],usual:19,utf:[21,22],util:[4,10],uvm:11,uvm_cach:0,uvm_cache_stat:8,uvm_weight:[0,8],v100:[9,10],valu:[2,6,7,8,13,14,17,19],variabl:9,variant:[8,9,10],variou:5,variu:24,vcs_pageview_mod:19,vector:[1,2,3,5,13],vehicula:24,vel:24,velit:24,venenati:24,verbos:22,veri:[22,23],verifi:[9,10],version:[10,15,17,19,22],vertic:[19,21],vestibulum:[22,24],via:[15,19,25],view:19,viewpoint:15,vis:21,visibl:[10,17],visitor:19,vita:[22,24],vivamu:24,viverra:24,volatil:10,volutpat:24,vram:10,vulput:24,wai:7,want:[16,17],warn:[0,14],wash:21,weak:21,web:21,weight:[0,7,8,14,21],weight_decai:14,weight_decay_mod:14,weightdecaymod:14,weights_offset:[0,8],weights_plac:[0,8],weights_precis:14,weights_ti:[0,8],welcom:[15,16],well:[2,7,9,21],were:[10,13],wget:9,what:[9,15,21],wheel:9,when:[2,7,9,14,15,17,19,21,23],where:[2,7,13,14,17,22],whether:[9,20],which:[7,9,10,14,15,17,19,21,22],white:21,whitespac:21,whl:[9,10],who:[15,21],why:21,wide:25,width:21,wiki:[9,15],window:[9,21],window_nam:21,wise:14,wish:22,within:[7,15,19,21],without:[9,15,19,21],wooden:21,word:21,work:[10,16,17,21,22],world:21,wrap:[21,24],write:[9,10,21],wrote:21,www:[15,19,21],x86_64:9,x_0:21,x_1:21,x_2:21,x_3:21,x_4:21,x_offset:[2,13],x_valu:[2,13],xml:4,y_0:13,y_1:13,yahoo:22,yarn:17,you:[16,17,19,21,22,23],your:[16,19,21,22,26],zero:13},titles:["Embedding Operators","Combine Input Operators","Jagged Tensor Operators","Layout Transformation Operators","CUDA Memory Operators","Pooled Embeddings Operators","Quantization Operators","Sparse Data Operators","Table Batched Embedding Operators","Build Instructions","Installation Instructions","Testing FBGEMM_GPU","Welcome to FBGEMM\u2019s documentation!","Jagged Tensor Operators","Table Batched Embedding (TBE) Operators","Code of Conduct","Contributing to pytorch_sphinx_theme","PyTorch Sphinx Theme","Changelog","Configuration","<span class=\"section-number\">5. </span>:mod:`test_py_module`","<span class=\"section-number\">3. </span>Paragraph Level Markup","<span class=\"section-number\">4. </span>Lists &amp; Tables","<span class=\"section-number\">1. </span>Long Sticky Nav","<span class=\"section-number\">1. </span>Structural Elements","&lt;no title&gt;","Installation"],titleterms:{"long":23,"public":10,And:21,But:22,For:9,The:[9,21],admonit:21,against:17,agreement:16,amdgpu:10,arg:20,attribut:15,base:19,batch:[8,14],benchmark:11,block:21,build:[9,19],built:17,bullet:22,can:22,caption:22,center:21,chang:17,changelog:18,check:[9,10],citat:21,cla:16,code:[15,21],combin:1,compat:9,compil:9,compound:21,conda:[9,10],conduct:15,configur:19,contain:10,content:[19,20,21,22,23,24],context:19,contribut:16,contributor:16,cpu:[0,2,3,6,7,9,10],creativ:21,cuda:[0,2,3,4,6,7,9,10,11],cudnn:9,data:[7,20],deeper:22,definit:22,develop:[9,17],direct:21,doc:17,docker:[9,10],doctest:21,document:[12,24],down:22,download:[21,26],driver:10,element:24,embed:[0,5,8,14],emphas:21,enforc:15,enumer:22,environ:[9,10],exampl:[21,23],fbgemm:12,fbgemm_gpu:[9,10,11],field:22,figur:21,font:17,footnot:21,gener:20,giant:22,git:26,glibc:9,glossari:21,grid:22,have:22,hlist:22,hole:22,how:19,html:19,ien:21,imag:[9,21,22],index:20,inlin:21,input:1,instal:[9,10,26],instruct:[9,10],isol:9,issu:16,jag:[2,13],layout:3,level:[19,21,22],librari:10,licens:16,like:22,line:21,link:21,list:22,liter:21,local:17,markup:21,math:21,memori:4,menu:23,merg:5,meta:21,miniconda:9,miopen:9,mobil:17,mod:20,nav:23,navig:17,number:[21,22],nvidia:10,one:22,onli:[9,10],oper:[0,1,2,3,4,5,6,7,8,13,14],option:[19,20,22],other:9,our:15,packag:[9,10],page:19,paragraph:[21,24],paramet:20,permut:5,pip:[9,10],pledg:15,pool:5,post:[9,10],prepar:9,process:9,project:19,publish:17,pull:16,pypi:10,python:10,pytorch:[9,10,17],pytorch_sphinx_them:16,quantiz:6,quot:21,rabbit:22,refer:21,replac:21,request:16,respons:15,rocm:[9,10,11],rubric:21,runtim:10,scope:15,second:22,section:24,set:[9,10],sidebar:21,spars:7,sphinx:17,standard:15,sticki:23,structur:24,stylesheet:17,submenu:23,submit:17,subsect:24,subsubmenu:23,subsubsect:24,symbol:[9,10],tabl:[8,14,19,20,21,22,23,24],target:21,tbe:14,tensor:[2,13],test:[11,17],test_py_modul:20,text:21,theme:[17,19],thi:22,through:[9,10],titl:21,toc:19,tool:9,top:17,topic:21,transform:3,tutori:17,undefin:[9,10],variant:11,version:9,via:26,wai:21,welcom:12,wide:19,your:17}})
\ No newline at end of file
+Search.setIndex({"docnames": ["cpp-api/embedding_ops", "cpp-api/input_combine", "cpp-api/jagged_tensor_ops", "cpp-api/layout_transform_ops", "cpp-api/memory_utils", "cpp-api/merge_pooled_embeddings", "cpp-api/quantize_ops", "cpp-api/sparse_ops", "cpp-api/split_table_batched_embeddings", "general/BuildInstructions", "general/DocsInstructions", "general/InstallationInstructions", "general/TestInstructions", "index", "python-api/jagged_tensor_ops", "python-api/table_batched_embedding_ops", "pytorch-sphinx-theme/docs/changelog", "pytorch-sphinx-theme/docs/configuring", "pytorch-sphinx-theme/docs/demo/api", "pytorch-sphinx-theme/docs/demo/demo", "pytorch-sphinx-theme/docs/demo/lists_tables", "pytorch-sphinx-theme/docs/demo/long", "pytorch-sphinx-theme/docs/demo/structure", "pytorch-sphinx-theme/docs/index", "pytorch-sphinx-theme/docs/installing"], "filenames": ["cpp-api/embedding_ops.rst", "cpp-api/input_combine.rst", "cpp-api/jagged_tensor_ops.rst", "cpp-api/layout_transform_ops.rst", "cpp-api/memory_utils.rst", "cpp-api/merge_pooled_embeddings.rst", "cpp-api/quantize_ops.rst", "cpp-api/sparse_ops.rst", "cpp-api/split_table_batched_embeddings.rst", "general/BuildInstructions.rst", "general/DocsInstructions.rst", "general/InstallationInstructions.rst", "general/TestInstructions.rst", "index.rst", "python-api/jagged_tensor_ops.rst", "python-api/table_batched_embedding_ops.rst", "pytorch-sphinx-theme/docs/changelog.rst", "pytorch-sphinx-theme/docs/configuring.rst", "pytorch-sphinx-theme/docs/demo/api.rst", "pytorch-sphinx-theme/docs/demo/demo.rst", "pytorch-sphinx-theme/docs/demo/lists_tables.rst", "pytorch-sphinx-theme/docs/demo/long.rst", "pytorch-sphinx-theme/docs/demo/structure.rst", "pytorch-sphinx-theme/docs/index.rst", "pytorch-sphinx-theme/docs/installing.rst"], "titles": ["Embedding Operators", "Combine Input Operators", "Jagged Tensor Operators", "Layout Transformation Operators", "CUDA Memory Operators", "Pooled Embeddings Operators", "Quantization Operators", "Sparse Data Operators", "Table Batched Embedding Operators", "Build Instructions", "Contributing Documentation", "Installation Instructions", "Testing FBGEMM_GPU", "Welcome to FBGEMM\u2019s documentation!", "Jagged Tensor Operators", "Table Batched Embedding (TBE) Operators", "Changelog", "Configuration", "<span class=\"section-number\">5. </span>:mod:`test_py_module`", "<span class=\"section-number\">3. </span>Paragraph Level Markup", "<span class=\"section-number\">4. </span>Lists &amp; Tables", "<span class=\"section-number\">1. </span>Long Sticky Nav", "<span class=\"section-number\">1. </span>Structural Elements", "&lt;no title&gt;", "Installation"], "terms": {"tensor": [0, 1, 3, 4, 5, 6, 7, 8, 13, 15], "split_embedding_codegen_lookup_adagrad_funct": 0, "const": [0, 1, 2, 3, 4, 5, 6, 7], "placeholder_autograd_tensor": 0, "dev_weight": [0, 8], "uvm_weight": [0, 8], "lxu_cache_weight": [0, 8], "weights_plac": [0, 8], "weights_offset": [0, 8], "d_offset": [0, 6, 8], "int64_t": [0, 1, 2, 3, 4, 6, 7, 8], "total_d": [0, 8, 15], "max_d": 0, "hash_size_cumsum": [0, 8], "total_hash_size_bit": 0, "indic": [0, 8, 15, 17, 19], "offset": [0, 2, 7, 8, 14, 15], "pooling_mod": [0, 15], "c10": [0, 2, 4, 8], "option": [0, 2, 4, 8, 9, 14, 15, 19, 23], "indice_weight": 0, "feature_requires_grad": [0, 15], "lxu_cache_loc": [0, 8], "bool": [0, 4, 5, 6, 8, 10, 15, 17], "gradient_clip": [0, 15], "doubl": [0, 2, 6, 7, 19], "max_gradi": [0, 15], "stochastic_round": [0, 8, 15], "momentum1_dev": [0, 8], "momentum1_uvm": [0, 8], "momentum1_plac": [0, 8], "momentum1_offset": [0, 8], "ep": [0, 15], "0": [0, 7, 8, 9, 11, 14, 15, 16, 18, 19], "learning_r": [0, 15], "output_dtyp": [0, 6, 15], "static_cast": 0, "sparsetyp": [0, 15], "fp32": [0, 15], "b_offset": 0, "vbe_output_offsets_feature_rank": 0, "vbe_b_offsets_rank_per_featur": 0, "max_b": 0, "1": [0, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 19, 20, 23], "max_b_feature_rank": 0, "vbe_output_s": 0, "is_experiment": 0, "fals": [0, 4, 15, 17, 18, 19, 20], "use_uniq_cache_locations_bwd": 0, "use_homogeneous_plac": 0, "split_embedding_codegen_lookup_adam_funct": 0, "momentum2_dev": 0, "momentum2_uvm": 0, "momentum2_plac": 0, "momentum2_offset": 0, "beta1": [0, 15], "beta2": [0, 15], "weight_decai": [0, 15], "iter": 0, "split_embedding_codegen_lookup_approx_rowwise_adagrad_funct": 0, "weight_decay_mod": [0, 15], "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_funct": 0, "prev_iter_dev": 0, "prev_iter_uvm": 0, "prev_iter_plac": 0, "prev_iter_offset": 0, "row_counter_dev": 0, "row_counter_uvm": 0, "row_counter_plac": 0, "row_counter_offset": 0, "counter_halflif": 0, "adjustment_it": 0, "adjustment_ub": 0, "learning_rate_mod": 0, "grad_sum_decai": 0, "max_count": 0, "tail_id_threshold": 0, "is_tail_id_thresh_ratio": 0, "regularization_mod": 0, "weight_norm_coeffici": 0, "lower_bound": [0, 7], "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_funct": 0, "split_embedding_codegen_lookup_approx_sgd_funct": 0, "split_embedding_codegen_lookup_lamb_funct": 0, "split_embedding_codegen_lookup_lars_sgd_funct": 0, "eta": [0, 15], "momentum": [0, 15], "split_embedding_codegen_lookup_none_funct": 0, "total_hash_s": 0, "total_unique_indic": 0, "split_embedding_codegen_lookup_partial_rowwise_adam_funct": 0, "split_embedding_codegen_lookup_partial_rowwise_lamb_funct": 0, "split_embedding_codegen_lookup_rowwise_adagrad_funct": 0, "max_norm": 0, "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_funct": 0, "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_funct": 0, "split_embedding_codegen_lookup_rowwise_weighted_adagrad_funct": 0, "split_embedding_codegen_lookup_sgd_funct": 0, "void": [0, 4, 6, 8], "bounds_check_indices_cuda": 0, "rows_per_t": 0, "bounds_check_mod": [0, 15], "warn": [0, 10, 15], "weight": [0, 7, 8, 15, 19], "b_ofset": 0, "int_nbit_split_embedding_codegen_lookup_funct": 0, "weights_ti": [0, 8], "max_int2_d": 0, "max_int4_d": 0, "max_int8_d": 0, "max_float16_d": 0, "max_float32_d": 0, "row_align": [0, 8], "max_float8_d": 0, "fp8_exponent_bit": 0, "fp8_exponent_bia": 0, "int_nbit_split_embedding_uvm_caching_codegen_lookup_funct": 0, "cache_hash_size_cumsum": [0, 8], "total_cache_hash_s": [0, 8], "cache_index_table_map": [0, 8], "lxu_cache_st": [0, 8], "lxu_stat": 0, "simlar": 0, "doe": [0, 10, 11, 19], "uvm_cach": 0, "lookup": [0, 8], "pruned_hashmap_lookup_cuda": 0, "hash_tabl": 0, "hash_table_offset": 0, "pruned_array_lookup_cuda": 0, "index_remap": 0, "index_remappings_offset": 0, "int_nbit_split_embedding_codegen_lookup_function_cpu": 0, "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu": 0, "pruned_hashmap_insert_unweighted_cpu": 0, "dense_indic": 0, "pruned_hashmap_lookup_unweighted_cpu": 0, "pruned_array_lookup_cpu": 0, "std": [1, 2, 3, 4, 5, 7, 8], "tupl": [1, 2, 7, 8, 15], "tbe_input_combine_cpu": 1, "vector": [1, 2, 3, 4, 5, 14], "indices_list": 1, "offsets_list": 1, "per_sample_weight": [1, 15], "include_last_offset": 1, "padding_fused_tbe_input_combine_cpu": 1, "batch_siz": 1, "solv": 2, "issu": [2, 4, 9, 11], "when": [2, 7, 9, 10, 15, 17, 19, 21], "row": [2, 8, 14, 15, 20], "dimens": [2, 4, 7, 14, 15], "ar": [2, 8, 9, 10, 11, 14, 15, 17, 19, 20, 21], "differ": [2, 7, 17], "length": [2, 7, 14, 15, 20], "thi": [2, 4, 5, 7, 9, 10, 11, 13, 17, 18, 19, 21, 22], "often": [2, 19], "occur": [2, 10], "spars": [2, 13], "featur": [2, 7, 15], "input": [2, 4, 6, 7, 10, 13, 14, 15, 20], "recommend": [2, 9, 11, 19], "system": [2, 9, 11], "well": [2, 7, 9, 10, 19], "natur": [2, 19], "languag": [2, 18, 19, 20], "process": [2, 11, 18, 19], "batch": [2, 7, 13, 14], "jagged_to_padded_dense_forward": 2, "valu": [2, 4, 6, 7, 8, 10, 14, 15, 17], "symintarrayref": 2, "max_length": [2, 14], "padding_valu": [2, 14], "jagged_dense_elementwise_add_jagged_output_cuda": 2, "x_valu": [2, 14], "x_offset": [2, 14], "y": [2, 9, 10, 11, 14, 20], "output": [2, 6, 7, 10, 14, 15, 17, 19, 20], "x": [2, 10, 20], "where": [2, 4, 7, 14, 15, 20], "i": [2, 4, 6, 7, 8, 9, 10, 11, 14, 15, 17, 18, 19, 21, 22], "dens": [2, 14], "jagged_to_padded_dens": [2, 13, 14], "jagged_dense_elementwise_add": [2, 13, 14], "jagged_dense_elementwise_mul": [2, 13, 14], "batched_dense_vec_jagged_2d_mul": [2, 13, 14], "v": [2, 12, 14, 20], "a_valu": [2, 14], "a_offset": [2, 14], "dense_to_jag": [2, 13, 14], "symint": 2, "total_l": [2, 14], "jagged_dense_elementwise_add_jagged_output": [2, 13, 14], "jagged_1d_to_dens": [2, 13, 14], "max_l": 2, "jagged_2d_to_dens": [2, 9, 11, 13, 14], "max_sequence_length": [2, 14], "recat_embedding_grad_output_cuda": 3, "grad_output": 3, "num_features_per_rank": 3, "recat_embedding_grad_output_mixed_d_cuda": 3, "dim_sum_per_rank": 3, "recat_embedding_grad_output_mixed_d_batch_cuda": 3, "cumsum_dim_sum_per_rank": 3, "recat_embedding_grad_output_mixed_d_cpu": 3, "new_managed_tensor": 4, "self": 4, "size": [4, 6, 7, 14, 15, 17], "alloc": 4, "an": [4, 7, 10, 11, 13, 15, 17, 19, 20], "unifi": 4, "manag": [4, 9, 11, 15], "uvm": [4, 12], "Then": 4, "set": [4, 8, 12, 13, 14, 15, 17, 21, 24], "its": [4, 7, 9, 10, 15, 19], "prefer": [4, 11], "storag": [4, 6, 8], "locat": [4, 8, 9], "cpu": [4, 5, 10, 12, 13], "host": 4, "establish": 4, "map": [4, 7, 8, 15], "devic": [4, 5, 9, 12, 15], "paramet": [4, 7, 10, 14, 15, 23], "The": [4, 7, 10, 11, 12, 14, 15, 17, 20], "target": [4, 7, 9], "return": [4, 7, 10, 14, 15], "A": [4, 10, 11, 14, 15, 20], "new": [4, 8, 10, 19], "back": [4, 8, 9, 11, 19], "new_managed_tensor_meta": 4, "placehold": 4, "meta": [4, 23], "dispatch": 4, "kei": [4, 19], "empti": [4, 14, 20], "new_host_mapped_tensor": 4, "new_unified_tensor": 4, "is_host_map": 4, "either": [4, 7, 9, 11, 17, 19], "whether": [4, 9, 18], "depend": [4, 9, 11], "new_vanilla_managed_tensor": 4, "allow": [4, 17], "automat": [4, 7, 10, 12, 19], "uvm_storag": 4, "check": [4, 13, 15], "gpu": [4, 9, 11, 12], "true": [4, 15, 17, 20], "otherwis": [4, 11], "is_uvm_tensor": 4, "BUT": 4, "non": [4, 15, 20, 22], "uvm_to_cpu": 4, "convert": [4, 6, 14], "effect": [4, 17], "move": 4, "from": [4, 7, 8, 9, 10, 11, 12, 15, 17, 18, 19, 20], "uvm_to_devic": 4, "prototyp": 4, "creat": [4, 9, 10, 19], "share": 4, "same": [4, 7, 9, 10, 14, 17, 19], "whose": 4, "uvm_cuda_mem_advis": 4, "cuda_memory_advis": 4, "call": [4, 11, 19], "cudamemadvis": 4, "": [4, 9, 10, 12, 17, 19, 20], "cudamemoryadvis": 4, "enum": 4, "avail": [4, 9, 10, 17], "python": [4, 9, 12, 19, 20], "side": [4, 17], "fbgemm_gpu": [4, 15], "namespac": 4, "see": [4, 9, 10, 11, 19], "document": [4, 17, 19, 20, 24], "over": [4, 9, 19], "valid": 4, "here": [4, 9, 10, 17, 19, 20], "For": [4, 10, 12, 17, 19, 20], "more": [4, 9, 10, 15, 17, 20], "inform": [4, 10, 19], "integ": [4, 22], "uvm_cuda_mem_prefetch_async": 4, "device_t": 4, "cudamemprefetchasync": 4, "prefetch": 4, "destin": 4, "uvm_mem_advice_dont_fork": 4, "madvis": 4, "madv_dontfork": 4, "workaround": 4, "kernel": [4, 12], "driver": [4, 9], "un": 4, "page": [4, 21, 23], "tabl": [4, 7, 13, 23], "fork": 4, "caus": [4, 9, 11, 17], "slowdown": 4, "next": [4, 17, 19, 20], "access": [4, 15, 17], "uvm_to_cpu_clon": 4, "copi": [4, 20], "contigu": [4, 7], "t": [4, 7, 9, 10, 15, 17, 19, 20], "us": [4, 7, 9, 10, 12, 15, 17, 18, 19, 20], "singl": [4, 19], "thread": 4, "memcpi": 4, "contain": [4, 9, 14, 15, 19, 20], "data": [4, 13, 15, 19, 23], "section": [5, 9, 17, 19, 20, 21, 23], "includ": [5, 9, 10, 17, 19], "cuda": [5, 13, 15], "variou": 5, "all_to_one_devic": 5, "inputtensor": 5, "target_devic": 5, "permute_pooled_embs_split_gpu": 5, "pooled_emb": 5, "offset_dim_list": 5, "permute_list": 5, "inv_offset_dim_list": 5, "inv_permute_list": 5, "permute_pooled_embs_auto_grad_split_gpu": 5, "permute_pooled_embs_auto_grad_gpu": 5, "permute_pooled_embs_cpu_impl": 5, "allow_dupl": 5, "permute_pooled_embs_split_cpu": 5, "permute_pooled_embs_auto_grad_split_cpu": 5, "permute_pooled_embs_auto_grad": 5, "permute_pooled_embs_auto_grad_cpu": 5, "model": [6, 7], "optim": [6, 15], "techniqu": 6, "reduc": 6, "larg": [6, 17, 19], "order": 6, "achiev": [6, 11], "better": [6, 10], "perform": [6, 7], "small": 6, "loss": 6, "accuraci": 6, "dll_public": [6, 7], "_float_to_bfloat16_gpu": 6, "float": [6, 10, 14, 15], "brain": 6, "point": [6, 14, 17, 18, 19], "bfloat16": 6, "_bfloat16_to_float_gpu": 6, "_float_to_fp8rowwise_gpu": 6, "forward": 6, "_float_to_fused8bitrowwise_gpu": 6, "_single_or_half_precision_to_fused8bitrowwise_gpu": 6, "_fused8bitrowwise_to_single_or_half_precision_gpu": 6, "_fused8bitrowwise_to_float_mixed_dim_gpu": 6, "templat": [6, 9, 17], "typenam": 6, "input_t": 6, "_float_to_fusednbitrowwise_gpu_t": 6, "bit_rat": [6, 7], "_float_to_fusednbitrowwise_gpu": 6, "_half_to_fusednbitrowwise_gpu": 6, "output_t": 6, "_fusednbitrowwise_to_float_gpu_t": 6, "_fusednbitrowwise_to_half_gpu": 6, "_fusednbitrowwise_to_float_or_half_gpu": 6, "_float_to_hfp8_gpu": 6, "ebit": 6, "exponent_bia": 6, "max_po": 6, "hybrid": 6, "8": [6, 9, 15, 19, 20, 23], "bit": 6, "hfp8": 6, "_hfp8_to_float_gpu": 6, "_float_to_msfp_gpu": 6, "bounding_box_s": 6, "mbit": 6, "bia": 6, "min_po": 6, "microsoft": 6, "msfp": 6, "_msfp_to_float_gpu": 6, "_float_to_paddedfp8rowwise_gpu": 6, "row_dim": 6, "_fused8bitrowwise_to_float_cpu_out": 6, "_float_to_fused8bitrowwise_cpu_out": 6, "float_to_fused8bitrowwise_cpu": 6, "half_to_fused8bitrowwise_cpu": 6, "float_or_half_to_fused8bitrowwise_cpu": 6, "fused8bitrowwise_to_float_cpu": 6, "fused8bitrowwise_to_half_cpu": 6, "fused8bitrowwise_to_float_or_half_cpu": 6, "float_to_fp8rowwise_cpu": 6, "fp8rowwise_to_float_cpu": 6, "fusednbitrowwise_to_float_cpu": 6, "fusednbitrowwise_to_half_cpu": 6, "fusednbitrowwise_to_float_or_half_cpu": 6, "floattofp8quantized_ref": 6, "size_t": 6, "nrow": 6, "ncol": 6, "uint8_t": [6, 8], "int": [6, 10, 14, 15, 17], "fp8quantizedtofloat_ref": 6, "expand_into_jagged_permute_cuda": 7, "permut": [7, 13], "input_offset": 7, "output_offset": 7, "output_s": 7, "expand_into_jagged_permut": 7, "expand": 7, "index": [7, 8, 9, 10, 11, 17, 23], "case": [7, 9, 11], "ha": [7, 10, 11, 19, 20], "across": [7, 9, 17], "rank": [7, 17], "level": [7, 23], "exclus": 7, "op": [7, 11, 14], "each": [7, 9, 10, 14, 15, 17, 19], "bag": [7, 15], "correspond": [7, 8, 10], "posit": [7, 15, 17], "sit": [7, 20, 22], "after": [7, 9, 10, 11, 12, 15], "we": [7, 17, 19], "deriv": 7, "arrai": [7, 14], "comput": [7, 9, 11, 15, 19], "follow": [7, 9, 10, 11, 17, 19, 20, 24], "formula": 7, "output_permut": 7, "table_offset": 7, "bag_offset": 7, "_float_or_half_to_fusednbitrowwise_gpu": 7, "histogram_binning_calibration_cpu": 7, "logit": 7, "bin_num_exampl": 7, "bin_num_posit": 7, "positive_weight": 7, "upper_bound": 7, "bin_ctr_in_use_aft": 7, "bin_ctr_weight_valu": 7, "divid": 7, "predict": 7, "rang": 7, "e": [7, 9], "g": [7, 9, 19], "b": [7, 9, 10, 14, 15, 20], "bin": [7, 9], "In": [7, 10, 11, 19, 20, 22], "two": [7, 14, 15, 19, 20, 24], "store": [7, 8], "number": [7, 9, 10, 14, 15, 17], "exampl": [7, 9, 10, 11, 12, 14, 15, 17, 18, 20, 23], "fall": [7, 9, 11], "bucket": [7, 9], "so": [7, 9, 11, 18, 19, 20], "basic": [7, 20], "have": [7, 8, 19], "histogram": 7, "As": [7, 9, 10, 11], "result": [7, 14, 17], "statist": 7, "real": 7, "ctr": 7, "num_po": 7, "num_exampl": 7, "final": 7, "calibr": 7, "pre": [7, 9, 11], "cali": 7, "wai": 7, "within": [7, 17, 19], "should": [7, 8, 10, 11, 17, 19, 22], "suffici": [7, 10], "That": [7, 19], "fine": 7, "grain": 7, "modul": [7, 10, 11, 15, 18, 19, 20], "theoret": 7, "layer": 7, "can": [7, 9, 10, 11, 17, 19], "fix": [7, 19], "ani": [7, 10, 14, 17, 19], "uncalibr": 7, "befor": [7, 15], "appli": [7, 9, 15], "sigmoid": 7, "assum": 7, "calibart": 7, "pass": [7, 10, 15], "argument": [7, 10, 19, 20], "all": [7, 8, 9, 10, 11, 15, 19, 20], "which": [7, 9, 10, 11, 15, 17, 19, 20], "lower": [7, 20], "bound": 7, "calibration_target": 7, "don": [7, 9, 10, 17, 19, 20], "onli": [7, 8, 10, 12, 13, 19], "observ": 7, "default": [7, 9, 11, 15, 17, 18, 19], "specifi": [7, 9, 14, 15, 17, 19], "sum": [7, 14, 15], "statisct": 7, "final_calibrated_predict": 7, "bin_ctr_weight": 7, "bin_ctr": 7, "calibrated_predict": 7, "bin_id": 7, "generic_histogram_binning_calibration_by_feature_cpu": 7, "segment_valu": 7, "segment_length": 7, "num_seg": 7, "bin_boundari": 7, "extens": [7, 10], "base": [7, 8, 9, 19], "one": [7, 8, 10, 14, 15, 19], "specif": [7, 9, 10, 15, 19], "ectr": 7, "abov": [7, 10, 11, 18, 19], "accept": 7, "gener": [7, 9, 11, 17, 19, 20, 23], "sort": [7, 8, 9], "keyjaggedtensor": 7, "num_bin": 7, "longer": [7, 17], "still": [7, 9], "parambin_ctr_weight_valu": 7, "get_unique_indices_cuda": 8, "linear_indic": 8, "max_indic": 8, "compute_count": 8, "dedupl": 8, "pair": [8, 19], "lru_cache_find_uncached_cuda": 8, "unique_indic": 8, "unique_indices_length": 8, "time_stamp": 8, "lru_stat": 8, "gather_cache_stat": 8, "uvm_cache_stat": 8, "lock_cache_lin": 8, "lxu_cache_locking_count": 8, "lru": [8, 15], "cach": [8, 9, 15], "find": [8, 9, 10], "uncach": 8, "them": [8, 10, 17], "host_lxu_cache_slot": 8, "h_in": 8, "c": [8, 11, 20], "cache_set": [8, 15], "linearize_cache_indices_cuda": 8, "linear": 8, "make": [8, 9, 10, 19, 21], "uniqu": 8, "linearize_cache_indices_from_row_idx_cuda": 8, "update_table_indic": 8, "update_row_indic": 8, "note": [8, 9, 10, 11, 17, 19], "format": [8, 10, 19, 20], "inplac": 8, "updat": [8, 9, 11, 15], "lru_cache_populate_cuda": 8, "linear_cache_indic": 8, "fetch": 8, "insert": 8, "timestep": 8, "lru_cache_populate_byte_cuda": 8, "byte": 8, "element": [8, 19, 20, 23], "direct_mapped_lru_cache_populate_byte_cuda": 8, "lxu_cache_miss_timestamp": 8, "direct": [8, 10, 11, 23], "assoc": 8, "variant": [8, 9, 10, 11], "lfu_cache_populate_cuda": 8, "lfu_stat": 8, "lfu": [8, 15], "lfu_cache_populate_byte_cuda": 8, "lxu_cache_lookup_cuda": 8, "invalid_index": 8, "num_uniq_cache_indic": 8, "lxu_cache_locations_output": 8, "look": [8, 10, 15], "up": [8, 13, 15, 19], "slot": 8, "sentinel": 8, "miss": [8, 9, 19], "direct_mapped_lxu_cache_lookup_cuda": 8, "lxu_cache_flush_cuda": 8, "flush": [8, 19], "reset_weight_momentum_cuda": 8, "pruned_indic": 8, "pruned_indices_offset": 8, "logical_table_id": 8, "buffer_id": 8, "lxu_cache_locking_counter_decrement_cuda": 8, "decrement": 8, "counter": 8, "lxu_cache_locations_update_cuda": 8, "lxu_cache_locations_new": 8, "most": [9, 10, 11], "date": [9, 10, 11, 20], "embed": [9, 10, 11, 13, 19], "script": [9, 10, 11], "bundl": [9, 10, 11], "repo": [9, 10, 11], "under": [9, 10, 11, 19], "setup_env": [9, 10, 11], "bash": [9, 10, 11], "step": [9, 10, 11], "toolchain": [9, 11], "run": [9, 10, 11, 12, 19], "reproduc": [9, 11], "export": [9, 12], "platform_nam": 9, "unam": 9, "m": [9, 11, 12, 20], "prefix": [9, 19], "directori": [9, 10, 12], "miniconda_prefix": 9, "home": 9, "download": [9, 11, 23], "wget": 9, "q": 9, "http": [9, 10, 11, 17, 19], "anaconda": 9, "com": 9, "miniconda3": 9, "latest": [9, 17], "sh": 9, "o": [9, 11, 19], "p": 9, "u": 9, "load": 9, "shortcut": 9, "bashrc": 9, "n": [9, 11], "out": [9, 19], "command": [9, 10, 11, 19, 20], "against": [9, 12], "insid": [9, 10, 11, 19], "env_nam": [9, 11], "env": [9, 11], "name": [9, 10, 11, 19, 20], "python_vers": 9, "3": [9, 14, 15, 19, 20, 23], "12": [9, 15, 19, 23], "upgrad": 9, "pyopenssl": 9, "22": 9, "requir": [9, 10, 11, 15, 17], "recent": [9, 11], "nvcc": 9, "support": [9, 10, 11, 17, 18], "capabl": [9, 12], "5": [9, 15, 19, 20, 23], "machin": [9, 11, 12], "done": [9, 11], "built": [9, 10, 11], "bare": 9, "metal": 9, "neither": 9, "nor": 9, "nvidia": 9, "need": [9, 10, 11, 12, 19], "present": 9, "sinc": [9, 19], "thei": [9, 10, 17, 19], "runtim": 9, "setup": [9, 11], "simpli": 9, "pull": [9, 10, 11], "desir": [9, 14, 20], "linux": [9, 11], "distribut": 9, "ubuntu": 9, "04": 9, "11": [9, 11, 19, 23], "entrypoint": 9, "devel": 9, "ubuntu22": 9, "rest": [9, 11, 19, 20], "mai": [9, 11, 19, 20], "construct": [9, 11, 19, 20], "mechan": 9, "full": [9, 11], "nvml": 9, "cuda_vers": 9, "7": [9, 11, 14, 15, 23], "label": [9, 19], "verifi": [9, 10, 11], "cuda_runtim": 9, "h": [9, 10, 14], "libnvidia": [9, 11], "ml": [9, 11], "found": [9, 10, 11, 19], "conda_prefix": 9, "printenv": 9, "time": [9, 11, 17, 19], "extract": 9, "given": [9, 14], "url": [9, 11, 17], "platform": 9, "github": [9, 17], "builder": 9, "blob": [9, 17], "main": [9, 17, 19, 21], "common": [9, 11, 19], "install_cuda": 9, "cudnn_url": 9, "redist": 9, "v8": 9, "local_instal": 9, "x86_64": 9, "84_cuda11": 9, "archiv": 9, "tar": [9, 19], "xz": 9, "unpack": 9, "amd": [9, 11], "minim": 9, "6": [9, 11, 23], "termin": 9, "both": [9, 17, 19], "minimum": [9, 10], "oper": [9, 11, 13], "guid": [9, 10, 18], "disabl": [9, 17, 18], "apt": 9, "prompt": 9, "debian_frontend": 9, "noninteract": 9, "db": 9, "radeon": 9, "amdgpu": 9, "focal": 9, "install_5": 9, "4": [9, 11, 14, 15, 17, 19, 20, 23], "50403": 9, "1_all": 9, "deb": 9, "usecas": 9, "hiplibsdk": 9, "dkm": 9, "hipifi": 9, "clang": 9, "hip": 9, "dev": 9, "gcc": 9, "17": [9, 23], "oppos": 9, "becaus": 9, "reli": 9, "path": [9, 10], "sysroot": 9, "also": [9, 15, 17, 19, 20], "avoid": 9, "glibcxx": 9, "fbgemm_cpu": 9, "gxx_linux": 9, "64": 9, "10": [9, 11, 23], "sysroot_linux": 9, "2": [9, 10, 11, 14, 15, 17, 19, 20, 23], "forg": [9, 10], "while": 9, "newer": 9, "binari": 9, "older": [9, 11], "20": [9, 23], "cento": 9, "stream": 9, "librari": [9, 13], "refer": [9, 10, 13, 18, 23], "libstdc": 9, "To": [9, 10, 12, 17], "what": [9, 10, 19], "libcxx_path": 9, "print": [9, 10, 11, 15, 19], "objdump": 9, "tc": 9, "grep": 9, "glibc_": 9, "sed": [9, 20, 22], "9": [9, 15, 23], "vu": 9, "cat": 9, "glibcxx_": 9, "necessari": 9, "ninja": 9, "cmake": 9, "etc": [9, 15, 17, 19], "click": 9, "hypothesi": [9, 11], "jinja2": 9, "numpi": [9, 11], "scikit": [9, 11], "wheel": 9, "offici": 9, "homepag": 9, "authorit": [9, 10, 11], "how": [9, 10, 11, 12, 19, 21, 23], "nightli": [9, 11], "test": [9, 11, 13, 19, 20], "rc": 9, "without": [9, 17, 19], "alwai": [9, 19], "reliabl": 9, "known": [9, 15], "arriv": 9, "hour": 9, "later": 9, "than": [9, 18, 19], "window": [9, 19], "silent": 9, "place": [9, 15, 19, 20, 21], "artifact": 9, "select": [9, 18, 21], "dure": [9, 15], "thu": [9, 15, 19], "import": [9, 11, 15, 17, 19], "first": [9, 10, 19, 20], "prior": [9, 11], "much": [9, 17, 19], "determinist": 9, "torch": [9, 11, 14, 15], "org": [9, 11, 17, 19], "whl": [9, 11], "cu121": [9, 11], "rocm5": [9, 11], "channel": [9, 11, 18], "write": [9, 10, 11, 19], "ensur": [9, 11], "properli": 9, "__version__": 9, "cuda_cmake_macro": 9, "clone": 9, "along": [9, 11], "submodul": 9, "txt": [9, 10], "tag": [9, 10, 19], "fbgemm_vers": 9, "v0": [9, 16], "git": [9, 23], "recurs": 9, "fbgemm": [9, 10, 11, 14], "fbgemm_": 9, "addit": [9, 14], "cd": [9, 10, 12], "flow": [9, 19], "keep": 9, "state": 9, "becom": 9, "stale": 9, "problem": [9, 19], "re": [9, 11, 19], "attempt": 9, "failur": [9, 11], "due": [9, 18, 19], "address": [9, 20], "clear": 9, "py": [9, 10, 11, 12, 17, 19, 24], "clean": [9, 19], "made": [9, 10, 19], "variabl": 9, "presenc": 9, "howev": [9, 17, 18], "determin": 9, "processor": 9, "architectur": [9, 11], "arch": 9, "unabl": 9, "cudacxx": 9, "cuda_bin_path": 9, "provid": [9, 10, 11, 12, 13, 19], "cub": 9, "applic": [9, 15], "cub_dir": 9, "header": [9, 10, 17, 19, 20], "cudnn_include_dir": 9, "cudnn_librari": 9, "lib": [9, 11], "nvml_lib_path": 9, "reflect": 9, "python_tag": 9, "py310": 9, "package_nam": 9, "sm70": [9, 11], "80": 9, "v100": [9, 11], "a100": [9, 11], "If": [9, 10, 11, 15, 17, 19], "current": [9, 11, 15, 17], "cuda_arch_list": 9, "unset": 9, "torch_cuda_arch_list": 9, "exist": [9, 10], "bc": 9, "take": [9, 17, 19], "preced": [9, 19], "dtorch_cuda_arch_list": 9, "invoc": [9, 10], "bdist_wheel": 9, "package_vari": 9, "plat": 9, "manylinux1_": 9, "rocm_path": 9, "pytorch_rocm_arch": 9, "gfx906": 9, "gfx908": 9, "gfx90a": 9, "wiki": 9, "gentoo": 9, "list": [9, 10, 14, 15, 23], "rocminfo": 9, "gfx": 9, "fbgemm_gpu_rocm": 9, "dhip_root_dir": 9, "dcmake_c_flag": 9, "dtorch_use_hip_dsa": 9, "dcmake_cxx_flag": 9, "cpu_onli": 9, "flag": 9, "fbgemm_gpu_cpu": 9, "complet": [9, 10], "some": [9, 10, 18, 19], "actual": 9, "correct": [9, 17], "lot": 9, "jinja": 9, "instanti": 9, "sure": [9, 10], "accident": 9, "cours": 9, "file": [9, 10, 11, 17, 18, 20, 24], "fbgemm_gpu_lib_path": 9, "fbgemm_gpu_pi": [9, 11], "defin": [9, 10, 17], "function": [9, 10], "nm": 9, "gdcu": 9, "It": [9, 11, 17, 19], "referenc": 9, "certain": 9, "must": [9, 11, 12, 15, 19, 20], "gdc": 9, "merge_pooled_embed": [9, 11], "comment": [10, 19], "sourc": 10, "packag": [10, 12, 13], "instruct": [10, 13], "isol": [10, 11, 13], "conda": 10, "correctli": [10, 11], "instal": [10, 12, 13, 23], "tool": [10, 13], "doc": [10, 17, 18, 19, 24], "sphinx": [10, 17, 18, 19, 20, 24], "other": [10, 11, 18, 19], "pip": 10, "r": [10, 19], "doxygen": 10, "assembl": 10, "togeth": 10, "html": [10, 19], "view": [10, 17], "serv": 10, "pytorch": [10, 13], "project": [10, 18, 23], "deploi": 10, "netlifi": 10, "request": [10, 15], "pr": [10, 11], "app": 10, "public": [10, 20], "method": [10, 19], "accompani": 10, "itself": 10, "put": [10, 19], "yourself": 10, "shoe": 10, "develop": [10, 11, 19, 20], "who": [10, 19], "understand": 10, "your": [10, 17, 19, 20, 24], "live": [10, 19], "easier": 10, "leav": 10, "docstr": [10, 19, 20], "separ": 10, "task": 10, "At": [10, 18], "veri": [10, 20, 21], "add": [10, 14, 17, 19, 24], "descript": [10, 20], "usag": [10, 11, 19], "link": [10, 11, 17, 18, 23], "limit": [10, 18], "through": [10, 19], "pleas": [10, 19], "googl": [10, 17], "style": [10, 17, 19, 20], "def": [10, 19], "example_funct": 10, "class": [10, 19, 20], "you": [10, 17, 19, 20, 21], "multipl": [10, 14, 15, 19, 20], "line": [10, 11, 20], "those": [10, 14, 19], "about": [10, 17], "arg": [10, 14, 23], "arg1": 10, "rais": [10, 11], "attributeerror": [10, 11], "error": [10, 11, 19], "block": [10, 23], "publish": 10, "rst": [10, 17, 19], "local": [10, 17], "chang": [10, 17], "submit": 10, "javadoc": 10, "breath": 10, "kept": [10, 20], "cpp": 10, "cu": 10, "cuh": 10, "everyth": 10, "between": [10, 19, 20], "ifndef": 10, "doxygen_this_will_be_skip": 10, "endif": 10, "hidden": [10, 17], "moment": 10, "undocu": 10, "descriptionss": 10, "configur": [10, 23], "group": [10, 19, 20], "organ": [10, 20], "defgroup": 10, "verbatim": 10, "param": [10, 18], "ingroup": 10, "example_method": 10, "foo": [10, 19, 20], "lst": 10, "param1": 10, "param2": 10, "throw": 10, "my_error": 10, "info": [10, 11], "href": 10, "www": [10, 17, 19], "nl": 10, "manual": [10, 11, 18, 19], "cmdlink": 10, "int32_t": 10, "bar": [10, 17, 19], "doxygengroup": 10, "alreadi": [10, 11], "content": [10, 23], "toctre": [10, 17], "ini": 10, "append": 10, "build": [11, 12, 13, 18, 23], "work": [11, 19, 20], "version": [11, 17, 20], "sm80": 11, "respect": 11, "scratch": 11, "guarante": 11, "especi": 11, "displai": [11, 17], "do": [11, 18, 20], "smi": 11, "515": 11, "76": 11, "persist": [11, 19], "bu": 11, "id": [11, 17, 18, 22], "disp": 11, "volatil": 11, "uncorr": 11, "ecc": 11, "fan": 11, "temp": 11, "perf": 11, "pwr": 11, "cap": 11, "memori": [11, 13, 15], "util": 11, "mig": 11, "a10g": 11, "off": 11, "00000000": 11, "00": 11, "1e": 11, "31c": 11, "p0": 11, "59w": 11, "300w": 11, "0mib": 11, "23028mib": 11, "gi": 11, "ci": 11, "pid": 11, "type": [11, 14, 15, 19], "No": 11, "though": 11, "expos": 11, "detail": 11, "onc": 11, "imag": 11, "launch": 11, "toolkit": 11, "interfac": 11, "concis": 11, "dieedg": 11, "avgpwr": 11, "sclk": 11, "mclk": 11, "pwrcap": 11, "vram": 11, "33": 11, "0c": 11, "37": 11, "0w": 11, "300mhz": 11, "1200mhz": 11, "auto": [11, 19, 20], "290": 11, "32": 11, "39": 11, "end": [11, 19], "log": 11, "difficult": 11, "relev": 11, "releas": [11, 19], "encount": 11, "signatur": 11, "traceback": 11, "last": 11, "root": [11, 17], "miniconda": 11, "mycondaenv": 11, "python3": 11, "site": [11, 19], "_op": 11, "565": 11, "__getattr__": 11, "overload_nam": 11, "_c": 11, "_jit_get_oper": 11, "qualified_op_nam": 11, "runtimeerror": 11, "except": 11, "wa": [11, 19], "string": [11, 17], "post47": 11, "py3": 11, "aarch64": 11, "egg": 11, "__init__": [11, 19], "21": 11, "_fbgemm_gpu_doc": 11, "noqa": 11, "f401": 11, "e402": 11, "18": [11, 23], "569": 11, "_opnamespac": 11, "object": 11, "attribut": [11, 19], "cli": 11, "main_run": 11, "execut": [11, 12], "47": 11, "fail": [11, 12], "_zn6fbgemm48floatorhalftofusednbitrowwisequantizedsbhalfavx2itli2eeevpkt_miph": 11, "appear": [11, 19], "reason": 11, "libtorch": 11, "visibl": 11, "ld_library_path": 11, "incorrectli": 11, "declar": 11, "were": [11, 14], "1618": 11, "former": 11, "resolv": 11, "latter": 11, "seriou": 11, "tha": 11, "report": 11, "directoi": 12, "bench": 12, "good": [12, 19], "pytest": 12, "rsx": 12, "w": 12, "ignor": [12, 15], "pytestcollectionwarn": 12, "split_table_batched_embeddings_test": 12, "quantize_ops_test": 12, "sparse_ops_test": 12, "split_embedding_inference_converter_test": 12, "detect": 12, "mode": [12, 15], "cuda_visible_devic": 12, "environ": [12, 13], "enabl": [12, 17], "debug": 12, "cuda_launch_block": 12, "fbgemm_test_with_rocm": 12, "hip_launch_block": 12, "split_table_batched_embeddings_benchmark": 12, "comprehens": 13, "rocm": 13, "post": 13, "benchmark": 13, "contribut": 13, "guidelin": 13, "ad": 13, "code": [13, 18, 20], "tbe": 13, "splittablebatchedembeddingbagscodegen": [13, 15], "jag": 13, "jagged_dense_dense_elementwise_add_jagged_output": [13, 14], "stacked_jagged_1d_to_dens": [13, 14], "stacked_jagged_2d_to_dens": [13, 14], "quantiz": 13, "pool": [13, 15], "merg": 13, "combin": 13, "layout": 13, "transform": 13, "2d": [14, 15], "pad": 14, "zero": 14, "1d": [14, 15], "start": [14, 20], "maximum": 14, "area": [14, 21], "outsid": [14, 19], "coverag": 14, "total": [14, 15], "identit": 14, "purpos": [14, 15], "structur": [14, 17, 19, 23], "y_0": 14, "y_1": 14, "elementwis": 14, "multipli": [14, 15], "matrix": 14, "max_n": 14, "d": [14, 19, 20], "matmul": 14, "kwarg": 14, "split_table_batched_embeddings_op": 15, "embedding_spec": 15, "feature_table_map": 15, "none": [15, 17, 19], "cache_algorithm": 15, "cachealgorithm": 15, "cache_load_factor": 15, "cache_reserved_memori": 15, "cache_precis": 15, "weights_precis": 15, "enforce_hbm": 15, "optimtyp": 15, "exact_sgd": 15, "record_cache_metr": 15, "01": [15, 20], "0e": 15, "weightdecaymod": 15, "001": 15, "999": 15, "poolingmod": 15, "boundscheckmod": 15, "train": 15, "backward": 15, "fuse": 15, "embeddingloc": 15, "computedevic": 15, "spec": 15, "placement": 15, "lxu": 15, "algorithm": 15, "capac": 15, "amount": 15, "reserv": 15, "hbm": 15, "fp16": 15, "int8": 15, "adam": 15, "exact_adagrad": 15, "exact_rowwise_adagrad": 15, "exact_rowwise_weighted_adagrad": 15, "lamb": 15, "lars_sgd": 15, "partial_rowwise_adam": 15, "partial_rowwise_lamb": 15, "sgd": 15, "recordcachemetr": 15, "record": 15, "hit": 15, "record_cache_miss_count": 15, "similar": 15, "metric": 15, "wise": 15, "record_tablewise_cache_miss": 15, "stochast": 15, "round": 15, "gradient": 15, "clip": 15, "learn": 15, "rate": 15, "epsilon": 15, "adagrad": 15, "lar": 15, "decai": 15, "rowwis": 15, "l2": 15, "decoupl": 15, "mean": 15, "boundari": 15, "fatal": 15, "conatin": 15, "shape": 15, "max": [15, 17], "column": [15, 20], "read": [15, 17, 19], "split_table_batched_embeddings_ops_common": 15, "split_table_batched_embeddings_ops_train": 15, "init_embedding_weights_uniform": 15, "split_embedding_weight": 15, "9426": 15, "7046": 15, "4214": 15, "0419": 15, "1331": 15, "7856": 15, "8124": 15, "2021": 15, "5771": 15, "5911": 15, "7792": 15, "1068": 15, "6203": 15, "4813": 15, "1677": 15, "4790": 15, "5587": 15, "0941": 15, "5754": 15, "3475": 15, "8952": 15, "1964": 15, "0810": 15, "4174": 15, "2513": 15, "4039": 15, "3775": 15, "3273": 15, "5399": 15, "0229": 15, "1455": 15, "8770": 15, "9520": 15, "4593": 15, "7169": 15, "6307": 15, "1765": 15, "8757": 15, "8614": 15, "2051": 15, "0603": 15, "9980": 15, "7958": 15, "5826": 15, "dtype": 15, "long": [15, 19, 20], "13": [15, 19, 23], "5197": 15, "2957": 15, "3578": 15, "1487": 15, "4873": 15, "3044": 15, "9801": 15, "2769": 15, "7164": 15, "8528": 15, "7159": 15, "6719": 15, "0784": 15, "2016": 15, "2176": 15, "1988": 15, "3825": 15, "5008": 15, "8991": 15, "1405": 15, "2637": 15, "9427": 15, "8902": 15, "3754": 15, "5013": 15, "6105": 15, "9968": 15, "3057": 15, "7621": 15, "9821": 15, "7314": 15, "6195": 15, "grad_fn": 15, "cppnode": 15, "splitlookupfunction_sgd_op": 15, "part": [17, 18, 19], "pytorch_sphinx_them": [17, 24], "conf": [17, 24], "repositori": [17, 24], "via": [17, 23], "html_theme_opt": 17, "canonical_url": 17, "analytics_id": 17, "logo_onli": 17, "display_vers": 17, "prev_next_buttons_loc": 17, "bottom": 17, "style_external_link": 17, "vcs_pageview_mod": 17, "collapse_navig": 17, "sticky_navig": [17, 21], "navigation_depth": 17, "includehidden": 17, "titles_onli": 17, "canon": 17, "let": [17, 19], "search": 17, "engin": 17, "know": [17, 19], "give": [17, 19], "higher": [17, 19], "trail": 17, "slash": 17, "analyt": 17, "With": [17, 19], "isn": [17, 19], "shown": [17, 19], "top": [17, 21], "sidebar": [17, 23], "previou": 17, "button": [17, 19], "accordingli": 17, "icon": [17, 19], "extern": [17, 19], "display_github": 17, "display_gitlab": 17, "gitlab": 17, "edit": 17, "raw": 17, "bitbucket": 17, "These": [17, 19], "en": 17, "stabl": 17, "lose": 17, "drop": 17, "down": 17, "scroll": [17, 21], "depth": 17, "tree": 17, "unlimit": 17, "mark": 17, "remov": 17, "high": 17, "mani": [17, 19, 20], "deep": 17, "significantli": 17, "larger": 17, "compil": 17, "todo": 17, "metadata": 17, "render": 17, "github_url": 17, "forc": 17, "bitbucket_url": 17, "gitlab_url": 17, "left": [17, 19], "menu": [17, 19], "upon": 17, "visitor": 17, "revert": 17, "usual": 17, "misbuild": 17, "might": 17, "show": [17, 19], "properti": 17, "By": 17, "navig": 17, "stick": 17, "screen": 17, "vertic": [17, 19], "too": [17, 19, 20], "static": 17, "sticki": [17, 23], "nav": [17, 23], "altogeth": 17, "cannot": 18, "like": [18, 19], "come": 18, "django": 18, "payment": 18, "dotpai": 18, "dotpayprovid": 18, "seller_id": 18, "pin": 18, "lock": 18, "lang": 18, "pl": 18, "backend": 18, "implement": 18, "popular": 18, "polish": 18, "gatewai": 18, "api": 18, "transfer": 18, "purchas": 18, "item": [18, 20], "seller": 18, "assign": 18, "consult": 18, "ui": 18, "data_item_1": 18, "restructuredtext": [19, 20], "demonstr": [19, 20, 21], "demo": 19, "parser": 19, "emphasi": 19, "strong": 19, "standalon": 19, "hyperlink": 19, "intern": 19, "cross": 19, "uri": 19, "web": 19, "anonym": 19, "symbol": 19, "substitut": 19, "below": 19, "charact": 19, "possibl": 19, "although": 19, "exceedingli": 19, "ugli": 19, "problemat": 19, "intent": 19, "ext": [19, 20], "autodoc": [19, 20], "test_py_modul": [19, 23], "right": 19, "my": 19, "role": 19, "interpret": 19, "explicit": 19, "pep": 19, "287": 19, "rfc": 19, "2822": 19, "subscript": 19, "superscript": 19, "standard": 19, "gui": 19, "action": 19, "taken": 19, "user": [19, 20], "height": 19, "interfer": 19, "adjac": 19, "bind": 19, "press": 19, "keyboard": 19, "mous": 19, "mmb": 19, "shift": 19, "anoth": [19, 20], "menuselect": 19, "short": [19, 20], "softwar": 19, "seen": [19, 20], "break": 19, "fit": 19, "sub": 19, "wrap": [19, 22], "whitespac": 19, "signific": 19, "strang": 19, "hyphen": 19, "word": 19, "adjust": 19, "width": 19, "browser": 19, "now": 19, "space": [19, 20], "sentenc": 19, "suppli": 19, "258": 19, "equat": 19, "x_": 19, "x_0": 19, "x_1": 19, "x_2": 19, "x_3": 19, "x_4": 19, "nabla": 19, "f": 19, "frac": 19, "partial": 19, "sin": 19, "theta": 19, "phi": 19, "eq": 19, "colon": 19, "indent": 19, "literal_block": 19, "spaces_and_linebreak": 19, "preserv": 19, "markup_process": 19, "Or": 19, "great": 19, "idea": 19, "why": 19, "didn": 19, "think": 19, "blank": 19, "begin": 19, "initi": 19, "continu": 19, "portion": 19, "edg": 19, "align": 19, "second": 19, "permit": 19, "awai": 19, "eric": 19, "orchestra": 19, "leader": 19, "three": [19, 20], "four": [19, 20], "half": 19, "bee": 19, "philosoph": 19, "ipso": 19, "facto": 19, "But": 19, "got": 19, "vi": 19, "entiti": 19, "said": 19, "entir": 19, "ancient": 19, "injuri": 19, "sing": 19, "consist": 19, "bodi": [19, 20], "theori": 19, "elk": 19, "bracket": 19, "goe": 19, "brontosaurus": 19, "thin": 19, "thicker": 19, "middl": 19, "again": 19, "far": 19, "mine": 19, "belong": 19, "me": [19, 20], "own": 19, "ann": 19, "begun": 19, "cut": 19, "past": 19, "interact": 19, "session": 19, "pars": 19, "curl": 19, "someurl": 19, "gz": [19, 20], "caption": [19, 22], "pane": 19, "shell_command": 19, "echo": 19, "did": 19, "window_nam": 19, "form": 19, "session_nam": 19, "shorthand": 19, "some_funct": 19, "interest": 19, "highlight": 19, "THE": 19, "heaven": 19, "hexagram": 19, "six": 19, "unbroken": 19, "stand": 19, "primal": 19, "power": 19, "light": 19, "activ": 19, "spirit": 19, "weak": 19, "essenc": 19, "energi": 19, "Its": 19, "repres": 19, "unrestrict": 19, "condit": 19, "therefor": 19, "conceiv": 19, "motion": 19, "regard": 19, "basi": 19, "durat": 19, "dual": 19, "sens": 19, "term": [19, 20], "univers": 19, "world": 19, "men": 19, "relat": 19, "express": 19, "deiti": 19, "human": 19, "denot": 19, "holi": 19, "man": [19, 20], "sage": 19, "ruler": 19, "hi": [19, 20], "awaken": 19, "utf": [19, 20], "sphinx_rtd_them": [19, 20], "nest": [19, 20], "dl": 19, "dt": 19, "tt": 19, "descnam": 19, "descclassnam": 19, "normal": 19, "just": [19, 21], "wrote": 19, "anyth": [19, 20], "els": [19, 20], "programm": 19, "myclass": 19, "dothismethod": 19, "meth": 19, "capit": 19, "flox": 19, "One": [19, 20], "least": [19, 20], "sequenc": 19, "unreferenc": 19, "nonexist": 19, "_": 19, "extrem": 19, "tell": 19, "doesn": 19, "respons": 19, "stuff": 19, "mayb": 19, "bold": 19, "ital": 19, "heck": 19, "backlink": 19, "definit": 19, "thing": 19, "knowledg": 19, "someth": 19, "ones": 19, "mind": 19, "ey": 19, "thought": 19, "medium": 19, "peopl": 19, "implicit": 19, "subsect": 19, "interpol": 19, "indirect": 19, "phrase": 19, "sampl": 19, "docutil": [19, 20], "sourceforg": [19, 20], "net": [19, 20], "ref": 19, "statement": 19, "clickabl": 19, "legend": 19, "revis": [19, 20], "revisit": 19, "enhanc": 19, "structuredtext": 19, "wooden": 19, "nickel": 19, "mad": 19, "scientist": 19, "bigger": 19, "bread": 19, "box": 19, "wash": 19, "behind": 19, "ear": 19, "room": 19, "closet": 19, "bathroom": 19, "trash": 19, "sink": 19, "mother": 19, "g_": 19, "mu": 19, "nu": 19, "pi": 19, "t_": 19, "rho_": 19, "lambda": 19, "15": [19, 23], "servic": 19, "thing1": 19, "thing2": 19, "thing3": 19, "prose": 19, "provok": 19, "mental": 19, "exert": 19, "reader": 19, "discret": 19, "strongli": 19, "advis": 19, "subtitl": 19, "besid": 19, "border": 19, "background": 19, "color": 19, "try": [19, 20], "best": 19, "around": [19, 22], "connect": 19, "ok": 19, "transmit": 19, "disconnect": 19, "simpl": [19, 20], "nonetheless": 19, "semant": 19, "produc": 19, "blue": 19, "lead": 19, "white": 19, "arab": 20, "numer": 20, "alpha": 20, "roman": 20, "upper": 20, "iii": 20, "iv": 20, "classifi": 20, "paragraph": [20, 23], "regardless": 20, "z": 20, "verbos": 20, "commonli": 20, "vm": 20, "There": 20, "author": 20, "david": 20, "goodger": 20, "123": 20, "street": 20, "ex": [20, 22], "canada": 20, "a1b": 20, "2c3": 20, "contact": 20, "myself": 20, "humankind": 20, "2012": 20, "03": 20, "19": [20, 23], "23": 20, "53": 20, "0000": 20, "tue": 20, "jan": 20, "statu": 20, "progress": 20, "7302": 20, "copyright": 20, "been": 20, "domain": 20, "wish": 20, "modifi": 20, "redistribut": 20, "reattribut": 20, "sell": 20, "bui": 20, "rent": 20, "leas": 20, "destroi": 20, "improv": 20, "quot": 20, "excerpt": 20, "incorpor": 20, "collat": 20, "fold": 20, "stapl": 20, "mutil": 20, "anyon": 20, "heart": 20, "bibliograph": 20, "dedic": 20, "co": 20, "abstract": 20, "markup": [20, 23], "advanc": 20, "third": 20, "inlin": [20, 23], "literal": 20, "yahoo": 20, "inner": 20, "oh": 20, "liter": 20, "heh": 20, "child": 20, "beat": 20, "emb": 20, "text": [20, 22], "hehe": 20, "sai": 20, "cackl": 20, "night": 20, "lone": 20, "guangzhou": 20, "destini": 20, "hope": 20, "dream": 20, "forth": 20, "fifth": 20, "sixth": 20, "figur": [20, 22], "lorem": [20, 22], "ipsum": [20, 22], "dolor": [20, 22], "amet": [20, 22], "consectetur": [20, 22], "adipisc": [20, 22], "elit": [20, 22], "donec": [20, 22], "porttitor": [20, 22], "odio": [20, 22], "posuer": [20, 22], "vita": [20, 22], "ornar": [20, 22], "libero": [20, 22], "matti": 20, "loborti": [20, 22], "justo": [20, 22], "vestibulum": [20, 22], "nibh": [20, 22], "aliquet": [20, 22], "feugiat": [20, 22], "sagitti": [20, 22], "nequ": [20, 22], "qui": [20, 22], "eleifend": 20, "dui": [20, 22], "rutrum": [20, 22], "lectu": [20, 22], "suscipit": [20, 22], "letter": 20, "cell": 20, "span": 20, "nam": [20, 22], "mauri": [20, 22], "arcu": [20, 22], "stub": 20, "behav": 21, "holder": 21, "interdum": 22, "nec": 22, "finibu": 22, "dictum": 22, "velit": 22, "ut": 22, "eu": 22, "efficitur": 22, "aliquam": 22, "erat": 22, "diam": 22, "gravida": 22, "imperdiet": 22, "tellu": 22, "nisl": 22, "praesent": 22, "eget": 22, "elementum": 22, "rhoncu": 22, "tincidunt": 22, "suspendiss": 22, "volutpat": 22, "scelerisqu": 22, "tristiqu": 22, "aenean": 22, "condimentum": 22, "risu": 22, "accumsan": 22, "laoreet": 22, "maximu": 22, "sapien": 22, "ligula": 22, "fringilla": 22, "commodo": 22, "proin": 22, "et": 22, "pharetra": 22, "etiam": 22, "turpi": 22, "ant": 22, "luctu": 22, "vel": 22, "malesuada": 22, "dignissim": 22, "mi": 22, "nunc": 22, "augu": 22, "sem": 22, "cursu": 22, "nulla": 22, "pellentesqu": 22, "habit": 22, "morbi": 22, "senectu": 22, "netu": 22, "fame": 22, "ac": 22, "egesta": 22, "placerat": 22, "tortor": 22, "iaculi": 22, "venenati": 22, "cra": 22, "puru": 22, "ero": 22, "vehicula": 22, "fusc": 22, "auctor": 22, "phasellu": 22, "est": 22, "viverra": 22, "conval": 22, "faucibu": 22, "vulput": 22, "feli": 22, "sodal": 22, "maecena": 22, "congu": 22, "semper": 22, "enim": 22, "blandit": 22, "sollicitudin": 22, "urna": 22, "orci": 22, "lacu": 22, "quisqu": 22, "facilisi": 22, "hendrerit": 22, "curabitur": 22, "variu": 22, "bibendum": 22, "massa": 22, "magna": 22, "tempu": 22, "metu": 22, "nisi": 22, "pretium": 22, "leo": 22, "euismod": 22, "ultric": 22, "potenti": 22, "dapibu": 22, "lacinia": 22, "vivamu": 22, "molesti": 22, "hac": 22, "habitass": 22, "platea": 22, "dictumst": 22, "wide": 23, "changelog": 23, "math": 23, "mod": 23, "14": 23, "16": 23, "submenu": 23, "symlink": 24, "subtre": 24, "_theme": 24, "html_theme": 24, "html_theme_path": 24}, "objects": {"": [[6, 0, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ebits"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::exponent_bias"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::input"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::ncols"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::nrows"], [6, 1, 1, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi", "FP8QuantizedToFloat_ref::output"], [6, 0, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu"], [6, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::forward"], [6, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::input"], [6, 1, 1, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t", "FP8rowwise_to_float_cpu::output_dtype"], [6, 0, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ebits"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::exponent_bias"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::input"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::max_pos"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::ncols"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::nrows"], [6, 1, 1, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd", "FloatToFP8Quantized_ref::output"], [6, 0, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out"], [6, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::input"], [6, 1, 1, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor", "_float_to_fused8bitrowwise_cpu_out::output"], [6, 0, 1, "_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu_t"], [6, 1, 1, "_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu_t::bit_rate"], [6, 1, 1, "_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu_t::input"], [6, 2, 1, "_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t", "_float_to_fusednbitrowwise_gpu_t::input_t"], [6, 0, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out"], [6, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::input"], [6, 1, 1, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor", "_fused8bitrowwise_to_float_cpu_out::output"], [6, 0, 1, "_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t", "_fusednbitrowwise_to_float_gpu_t"], [6, 1, 1, "_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t", "_fusednbitrowwise_to_float_gpu_t::bit_rate"], [6, 1, 1, "_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t", "_fusednbitrowwise_to_float_gpu_t::input"], [6, 2, 1, "_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t", "_fusednbitrowwise_to_float_gpu_t::output_t"], [5, 0, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device"], [5, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::inputTensors"], [5, 1, 1, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE", "all_to_one_device::target_device"], [2, 0, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul"], [2, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_offsets"], [2, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::a_values"], [2, 1, 1, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor", "batched_dense_vec_jagged_2d_mul::v"], [0, 0, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::B_ofsets"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::bounds_check_mode"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::indices"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::max_B"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::offsets"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::rows_per_table"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::warning"], [0, 1, 1, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t", "bounds_check_indices_cuda::weights"], [2, 0, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged"], [2, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::dense"], [2, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::offsets"], [2, 1, 1, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE", "dense_to_jagged::total_L"], [8, 0, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::D_offsets"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::hash_size_cumsum"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lru_state"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_miss_timestamp"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::row_alignment"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::time_stamp"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::uvm_cache_stats"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_offsets"], [8, 1, 1, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lru_cache_populate_byte_cuda::weights_tys"], [8, 0, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda"], [8, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::invalid_index"], [8, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "direct_mapped_lxu_cache_lookup_cuda::uvm_cache_stats"], [7, 0, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda"], [7, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::input_offsets"], [7, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_offsets"], [7, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::output_size"], [7, 1, 1, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t", "expand_into_jagged_permute_cuda::permute"], [6, 0, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu"], [6, 1, 1, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor", "float_or_half_to_fused8bitrowwise_cpu::input"], [6, 0, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu"], [6, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::forward"], [6, 1, 1, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb", "float_to_FP8rowwise_cpu::input"], [6, 0, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu"], [6, 1, 1, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor", "float_to_fused8bitrowwise_cpu::input"], [6, 0, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu"], [6, 1, 1, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor", "fused8bitrowwise_to_float_cpu::input"], [6, 0, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t", "fused8bitrowwise_to_float_or_half_cpu"], [6, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t", "fused8bitrowwise_to_float_or_half_cpu::input"], [6, 1, 1, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t", "fused8bitrowwise_to_float_or_half_cpu::output_dtype"], [6, 0, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu"], [6, 1, 1, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor", "fused8bitrowwise_to_half_cpu::input"], [6, 0, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu"], [6, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::bit_rate"], [6, 1, 1, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_float_cpu::input"], [6, 0, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu"], [6, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::bit_rate"], [6, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::input"], [6, 1, 1, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t", "fusednbitrowwise_to_float_or_half_cpu::output_dtype"], [6, 0, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu"], [6, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::bit_rate"], [6, 1, 1, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t", "fusednbitrowwise_to_half_cpu::input"], [7, 0, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_boundaries"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_in_use_after"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_ctr_weight_value"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_examples"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::bin_num_positives"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::logit"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::num_segments"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::positive_weight"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_lengths"], [7, 1, 1, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td", "generic_histogram_binning_calibration_by_feature_cpu::segment_value"], [8, 0, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda"], [8, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::compute_count"], [8, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::linear_indices"], [8, 1, 1, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb", "get_unique_indices_cuda::max_indices"], [6, 0, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu"], [6, 1, 1, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor", "half_to_fused8bitrowwise_cpu::input"], [7, 0, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_in_use_after"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_ctr_weight_value"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_examples"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::bin_num_positives"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::logit"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::lower_bound"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::positive_weight"], [7, 1, 1, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td", "histogram_binning_calibration_cpu::upper_bound"], [8, 0, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot"], [8, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::C"], [8, 1, 1, "_CPPv419host_lxu_cache_slot7int64_t7int64_t", "host_lxu_cache_slot::h_in"], [0, 0, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::D_offsets"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::dev_weights"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bias"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::fp8_exponent_bits"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indice_weights"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::indices"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_locations"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::lxu_cache_weights"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float16_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float32_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_float8_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int2_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int4_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::max_int8_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::offsets"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::output_dtype"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::pooling_mode"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::row_alignment"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::total_D"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::uvm_weights"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_offsets"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_placements"], [0, 1, 1, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function::weights_tys"], [0, 0, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::D_offsets"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::dev_weights"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bias"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::fp8_exponent_bits"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indice_weights"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::indices"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_locations"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::lxu_cache_weights"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float16_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float32_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_float8_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int2_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int4_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::max_int8_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::offsets"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::output_dtype"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::pooling_mode"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::row_alignment"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::total_D"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::uvm_weights"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_offsets"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_placements"], [0, 1, 1, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE", "int_nbit_split_embedding_codegen_lookup_function_cpu::weights_tys"], [0, 0, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::D_offsets"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_hash_size_cumsum"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::cache_index_table_map"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::dev_weights"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bias"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::fp8_exponent_bits"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indice_weights"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::indices"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_locations"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_state"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_cache_weights"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::lxu_state"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float16_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float32_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_float8_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int2_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int4_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::max_int8_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::offsets"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::output_dtype"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::pooling_mode"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::row_alignment"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_D"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::total_cache_hash_size"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::uvm_weights"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_offsets"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_placements"], [0, 1, 1, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function::weights_tys"], [0, 0, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::D_offsets"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_hash_size_cumsum"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::cache_index_table_map"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::dev_weights"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bias"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::fp8_exponent_bits"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indice_weights"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::indices"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_locations"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_state"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_cache_weights"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::lxu_state"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float16_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float32_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_float8_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int2_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int4_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::max_int8_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::offsets"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::output_dtype"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::pooling_mode"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::row_alignment"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_D"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::total_cache_hash_size"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::uvm_weights"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_offsets"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_placements"], [0, 1, 1, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE", "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu::weights_tys"], [4, 0, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor"], [4, 1, 1, "_CPPv413is_uvm_tensorRK6Tensor", "is_uvm_tensor::self"], [2, 0, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense"], [2, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::max_L"], [2, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::offsets"], [2, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::padding_value"], [2, 1, 1, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t", "jagged_1d_to_dense::values"], [2, 0, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense"], [2, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::max_sequence_length"], [2, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::offsets"], [2, 1, 1, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE", "jagged_2d_to_dense::values"], [2, 0, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_offsets"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::x_values"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add::y"], [2, 0, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output"], [2, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_offsets"], [2, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::x_values"], [2, 1, 1, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output::y"], [2, 0, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda"], [2, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_offsets"], [2, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::x_values"], [2, 1, 1, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_add_jagged_output_cuda::y"], [2, 0, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_offsets"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::x_values"], [2, 1, 1, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor", "jagged_dense_elementwise_mul::y"], [2, 0, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense"], [2, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::max_lengths"], [2, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::offsets"], [2, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::padding_value"], [2, 1, 1, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense::values"], [2, 0, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward"], [2, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::max_lengths"], [2, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::offsets"], [2, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::padding_value"], [2, 1, 1, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd", "jagged_to_padded_dense_forward::values"], [8, 0, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::D_offsets"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lfu_state"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::row_alignment"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_offsets"], [8, 1, 1, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "lfu_cache_populate_byte_cuda::weights_tys"], [8, 0, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::D_offsets"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lfu_state"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::stochastic_rounding"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights"], [8, 1, 1, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb", "lfu_cache_populate_cuda::weights_offsets"], [8, 0, 1, "_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_cuda"], [8, 1, 1, "_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_cuda::indices"], [8, 1, 1, "_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_cuda::offsets"], [8, 0, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda"], [8, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_row_indices"], [8, 1, 1, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE", "linearize_cache_indices_from_row_idx_cuda::update_table_indices"], [8, 0, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lock_cache_line"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lru_state"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_locking_counter"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::max_indices"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::time_stamp"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::unique_indices_length"], [8, 1, 1, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE", "lru_cache_find_uncached_cuda::uvm_cache_stats"], [8, 0, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::D_offsets"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::hash_size_cumsum"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lru_state"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::row_alignment"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::time_stamp"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::uvm_cache_stats"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_offsets"], [8, 1, 1, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_byte_cuda::weights_tys"], [8, 0, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::D_offsets"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::hash_size_cumsum"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lock_cache_line"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lru_state"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_locking_counter"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::stochastic_rounding"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::time_stamp"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::uvm_cache_stats"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights"], [8, 1, 1, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE", "lru_cache_populate_cuda::weights_offsets"], [8, 0, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::D_offsets"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::cache_index_table_map"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::stochastic_rounding"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::total_D"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::uvm_weights"], [8, 1, 1, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb", "lxu_cache_flush_cuda::weights_offsets"], [8, 0, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda"], [8, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations"], [8, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::lxu_cache_locations_new"], [8, 1, 1, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE", "lxu_cache_locations_update_cuda::num_uniq_cache_indices"], [8, 0, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda"], [8, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locations"], [8, 1, 1, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE", "lxu_cache_locking_counter_decrement_cuda::lxu_cache_locking_counter"], [8, 0, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::gather_cache_stats"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::invalid_index"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::linear_cache_indices"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_locations_output"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::num_uniq_cache_indices"], [8, 1, 1, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE", "lxu_cache_lookup_cuda::uvm_cache_stats"], [4, 0, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor"], [4, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::self"], [4, 1, 1, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_host_mapped_tensor::sizes"], [4, 0, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor"], [4, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::self"], [4, 1, 1, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor::sizes"], [4, 0, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta"], [4, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::self"], [4, 1, 1, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_managed_tensor_meta::sizes"], [4, 0, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor"], [4, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::is_host_mapped"], [4, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::self"], [4, 1, 1, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb", "new_unified_tensor::sizes"], [4, 0, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor"], [4, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::self"], [4, 1, 1, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE", "new_vanilla_managed_tensor::sizes"], [1, 0, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu"], [1, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::batch_size"], [1, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::include_last_offsets"], [1, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::indices_list"], [1, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::offsets_list"], [1, 1, 1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t", "padding_fused_tbe_input_combine_cpu::per_sample_weights"], [5, 0, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad"], [5, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::inv_permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad::pooled_embs"], [5, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::inv_permute_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::offset_dim_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::permute_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_cpu::pooled_embs"], [5, 0, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::inv_permute_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::offset_dim_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::permute_list"], [5, 1, 1, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor", "permute_pooled_embs_auto_grad_gpu::pooled_embs"], [5, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::inv_permute_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::offset_dim_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::permute_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_cpu::pooled_embs"], [5, 0, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::inv_permute_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::offset_dim_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::permute_list"], [5, 1, 1, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_auto_grad_split_gpu::pooled_embs"], [5, 0, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::allow_duplicates"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_offset_dim_list"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::inv_permute_list"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::offset_dim_list"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::permute_list"], [5, 1, 1, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb", "permute_pooled_embs_cpu_impl::pooled_embs"], [5, 0, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::inv_permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_cpu::pooled_embs"], [5, 0, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::inv_permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::offset_dim_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::permute_list"], [5, 1, 1, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE", "permute_pooled_embs_split_gpu::pooled_embs"], [0, 0, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu"], [0, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings"], [0, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::index_remappings_offsets"], [0, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::indices"], [0, 1, 1, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cpu::offsets"], [0, 0, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda"], [0, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings"], [0, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::index_remappings_offsets"], [0, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::indices"], [0, 1, 1, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_array_lookup_cuda::offsets"], [0, 0, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu"], [0, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::dense_indices"], [0, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table"], [0, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::hash_table_offsets"], [0, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::indices"], [0, 1, 1, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_insert_unweighted_cpu::offsets"], [0, 0, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda"], [0, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table"], [0, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::hash_table_offsets"], [0, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::indices"], [0, 1, 1, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_cuda::offsets"], [0, 0, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu"], [0, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table"], [0, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::hash_table_offsets"], [0, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::indices"], [0, 1, 1, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor", "pruned_hashmap_lookup_unweighted_cpu::offsets"], [3, 0, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda"], [3, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::grad_output"], [3, 1, 1, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_cuda::num_features_per_rank"], [3, 0, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda"], [3, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::cumsum_dim_sum_per_rank"], [3, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::dim_sum_per_rank"], [3, 1, 1, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor", "recat_embedding_grad_output_mixed_D_batch_cuda::grad_output"], [3, 0, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu"], [3, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::dim_sum_per_rank"], [3, 1, 1, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cpu::grad_output"], [3, 0, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda"], [3, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::dim_sum_per_rank"], [3, 1, 1, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE", "recat_embedding_grad_output_mixed_D_cuda::grad_output"], [8, 0, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::D_offsets"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::buffer_ids"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::cache_hash_size_cumsum"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::dev_weights"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::logical_table_ids"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_state"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::lxu_cache_weights"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_dev"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_offsets"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_placements"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::momentum1_uvm"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::pruned_indices_offsets"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::total_cache_hash_size"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::uvm_weights"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_offsets"], [8, 1, 1, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t", "reset_weight_momentum_cuda::weights_placements"], [0, 0, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::B_offsets"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::D_offsets"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::dev_weights"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::eps"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::feature_requires_grad"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::gradient_clipping"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::hash_size_cumsum"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::indice_weights"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::indices"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::is_experimental"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::learning_rate"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::lxu_cache_locations"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::lxu_cache_weights"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::max_B"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::max_B_feature_rank"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::max_D"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::max_gradient"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::momentum1_dev"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::momentum1_offsets"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::momentum1_placements"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::momentum1_uvm"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::offsets"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::output_dtype"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::pooling_mode"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::stochastic_rounding"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::total_D"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::total_hash_size_bits"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::uvm_weights"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::vbe_output_size"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::weights_offsets"], [0, 1, 1, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adagrad_function::weights_placements"], [0, 0, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::B_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::D_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::beta1"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::beta2"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::dev_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::eps"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::feature_requires_grad"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::gradient_clipping"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::hash_size_cumsum"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::indice_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::indices"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::is_experimental"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::iter"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::learning_rate"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::lxu_cache_locations"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::lxu_cache_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::max_B"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::max_B_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::max_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::max_gradient"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum1_dev"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum1_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum1_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum1_uvm"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum2_dev"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum2_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum2_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::momentum2_uvm"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::output_dtype"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::pooling_mode"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::stochastic_rounding"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::total_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::total_hash_size_bits"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::uvm_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::vbe_output_size"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::weight_decay"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::weights_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_adam_function::weights_placements"], [0, 0, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::B_offsets"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::D_offsets"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::dev_weights"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::eps"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::feature_requires_grad"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::gradient_clipping"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::hash_size_cumsum"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::indice_weights"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::indices"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::is_experimental"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::learning_rate"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::lxu_cache_locations"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::lxu_cache_weights"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::max_B"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::max_B_feature_rank"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::max_D"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::max_gradient"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::momentum1_dev"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::momentum1_offsets"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::momentum1_placements"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::momentum1_uvm"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::offsets"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::output_dtype"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::pooling_mode"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::stochastic_rounding"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::total_D"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::total_hash_size_bits"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::uvm_weights"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::vbe_output_size"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::weight_decay"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::weight_decay_mode"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::weights_offsets"], [0, 1, 1, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_function::weights_placements"], [0, 0, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::B_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::D_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::adjustment_iter"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::adjustment_ub"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::counter_halflife"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::dev_weights"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::eps"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::feature_requires_grad"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::grad_sum_decay"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::gradient_clipping"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::hash_size_cumsum"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::indice_weights"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::indices"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::is_experimental"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::is_tail_id_thresh_ratio"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::iter"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::learning_rate"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::learning_rate_mode"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::lower_bound"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::lxu_cache_locations"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::lxu_cache_weights"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::max_B"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::max_B_feature_rank"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::max_D"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::max_counter"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::max_gradient"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::momentum1_dev"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::momentum1_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::momentum1_placements"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::momentum1_uvm"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::output_dtype"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::pooling_mode"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::prev_iter_dev"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::prev_iter_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::prev_iter_placements"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::prev_iter_uvm"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::regularization_mode"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::row_counter_dev"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::row_counter_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::row_counter_placements"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::row_counter_uvm"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::stochastic_rounding"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::tail_id_threshold"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::total_D"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::total_hash_size_bits"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::uvm_weights"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::vbe_output_size"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::weight_decay"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::weight_decay_mode"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::weight_norm_coefficient"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::weights_offsets"], [0, 1, 1, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function::weights_placements"], [0, 0, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::B_offsets"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::D_offsets"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::dev_weights"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::eps"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::feature_requires_grad"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::gradient_clipping"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::hash_size_cumsum"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::indice_weights"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::indices"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::is_experimental"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::learning_rate"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::lxu_cache_locations"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::lxu_cache_weights"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::max_B"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::max_B_feature_rank"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::max_D"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::max_gradient"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::momentum1_dev"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::momentum1_offsets"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::momentum1_placements"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::momentum1_uvm"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::offsets"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::output_dtype"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::pooling_mode"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::stochastic_rounding"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::total_D"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::total_hash_size_bits"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::uvm_weights"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::vbe_output_size"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::weight_decay"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::weight_decay_mode"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::weights_offsets"], [0, 1, 1, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function::weights_placements"], [0, 0, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::B_offsets"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::D_offsets"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::dev_weights"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::feature_requires_grad"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::gradient_clipping"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::hash_size_cumsum"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::indice_weights"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::indices"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::is_experimental"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::learning_rate"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::lxu_cache_locations"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::lxu_cache_weights"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::max_B"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::max_B_feature_rank"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::max_D"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::max_gradient"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::offsets"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::output_dtype"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::pooling_mode"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::stochastic_rounding"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::total_D"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::total_hash_size_bits"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::uvm_weights"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::vbe_output_size"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::weights_offsets"], [0, 1, 1, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_approx_sgd_function::weights_placements"], [0, 0, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::B_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::D_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::beta1"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::beta2"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::dev_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::eps"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::feature_requires_grad"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::gradient_clipping"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::hash_size_cumsum"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::indice_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::indices"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::is_experimental"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::iter"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::learning_rate"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::lxu_cache_locations"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::lxu_cache_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::max_B"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::max_B_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::max_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::max_gradient"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum1_dev"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum1_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum1_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum1_uvm"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum2_dev"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum2_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum2_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::momentum2_uvm"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::output_dtype"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::pooling_mode"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::stochastic_rounding"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::total_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::total_hash_size_bits"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::uvm_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::vbe_output_size"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::weight_decay"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::weights_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lamb_function::weights_placements"], [0, 0, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::B_offsets"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::D_offsets"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::dev_weights"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::eta"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::feature_requires_grad"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::gradient_clipping"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::hash_size_cumsum"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::indice_weights"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::indices"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::is_experimental"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::learning_rate"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::lxu_cache_locations"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::lxu_cache_weights"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::max_B"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::max_B_feature_rank"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::max_D"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::max_gradient"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::momentum"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::momentum1_dev"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::momentum1_offsets"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::momentum1_placements"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::momentum1_uvm"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::offsets"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::output_dtype"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::pooling_mode"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::stochastic_rounding"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::total_D"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::total_hash_size_bits"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::uvm_weights"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::vbe_output_size"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::weight_decay"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::weights_offsets"], [0, 1, 1, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_lars_sgd_function::weights_placements"], [0, 0, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::B_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::D_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::dev_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::feature_requires_grad"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::hash_size_cumsum"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::indice_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::indices"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::is_experimental"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::lxu_cache_locations"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::lxu_cache_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::max_B"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::max_B_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::max_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::output_dtype"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::pooling_mode"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::total_D"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::total_hash_size"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::total_hash_size_bits"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::total_unique_indices"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::uvm_weights"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::vbe_output_size"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::weights_offsets"], [0, 1, 1, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_none_function::weights_placements"], [0, 0, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::B_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::D_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::beta1"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::beta2"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::dev_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::eps"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::feature_requires_grad"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::gradient_clipping"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::hash_size_cumsum"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::indice_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::indices"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::is_experimental"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::iter"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::learning_rate"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::lxu_cache_locations"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::lxu_cache_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::max_B"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::max_B_feature_rank"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::max_D"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::max_gradient"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum1_dev"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum1_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum1_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum1_uvm"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum2_dev"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum2_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum2_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::momentum2_uvm"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::output_dtype"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::pooling_mode"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::stochastic_rounding"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::total_D"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::total_hash_size_bits"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::uvm_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::vbe_output_size"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::weight_decay"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::weights_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_adam_function::weights_placements"], [0, 0, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::B_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::D_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::beta1"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::beta2"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::dev_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::eps"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::feature_requires_grad"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::gradient_clipping"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::hash_size_cumsum"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::indice_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::indices"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::is_experimental"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::iter"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::learning_rate"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::lxu_cache_locations"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::lxu_cache_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::max_B"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::max_B_feature_rank"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::max_D"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::max_gradient"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum1_dev"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum1_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum1_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum1_uvm"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum2_dev"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum2_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum2_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::momentum2_uvm"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::output_dtype"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::pooling_mode"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::stochastic_rounding"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::total_D"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::total_hash_size_bits"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::uvm_weights"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::vbe_output_size"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::weight_decay"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::weights_offsets"], [0, 1, 1, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_partial_rowwise_lamb_function::weights_placements"], [0, 0, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::B_offsets"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::D_offsets"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::dev_weights"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::eps"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::feature_requires_grad"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::gradient_clipping"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::hash_size_cumsum"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::indice_weights"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::indices"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::is_experimental"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::learning_rate"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::lxu_cache_locations"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::lxu_cache_weights"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::max_B"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::max_B_feature_rank"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::max_D"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::max_gradient"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::max_norm"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::momentum1_dev"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::momentum1_offsets"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::momentum1_placements"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::momentum1_uvm"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::offsets"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::output_dtype"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::pooling_mode"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::stochastic_rounding"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::total_D"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::total_hash_size_bits"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::uvm_weights"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::vbe_output_size"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::weight_decay"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::weight_decay_mode"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::weights_offsets"], [0, 1, 1, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_function::weights_placements"], [0, 0, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::B_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::D_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::adjustment_iter"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::adjustment_ub"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::counter_halflife"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::dev_weights"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::eps"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::feature_requires_grad"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::grad_sum_decay"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::gradient_clipping"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::hash_size_cumsum"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::indice_weights"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::indices"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::is_experimental"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::is_tail_id_thresh_ratio"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::iter"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::learning_rate"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::learning_rate_mode"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::lower_bound"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::lxu_cache_locations"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::lxu_cache_weights"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::max_B"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::max_B_feature_rank"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::max_D"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::max_counter"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::max_gradient"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::momentum1_dev"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::momentum1_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::momentum1_placements"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::momentum1_uvm"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::output_dtype"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::pooling_mode"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::prev_iter_dev"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::prev_iter_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::prev_iter_placements"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::prev_iter_uvm"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::regularization_mode"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::row_counter_dev"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::row_counter_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::row_counter_placements"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::row_counter_uvm"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::stochastic_rounding"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::tail_id_threshold"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::total_D"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::total_hash_size_bits"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::uvm_weights"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::vbe_output_size"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::weight_decay"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::weight_decay_mode"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::weight_norm_coefficient"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::weights_offsets"], [0, 1, 1, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function::weights_placements"], [0, 0, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::B_offsets"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::D_offsets"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::dev_weights"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::eps"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::feature_requires_grad"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::gradient_clipping"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::hash_size_cumsum"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::indice_weights"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::indices"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::is_experimental"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::learning_rate"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::lxu_cache_locations"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::lxu_cache_weights"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::max_B"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::max_B_feature_rank"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::max_D"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::max_gradient"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::momentum1_dev"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::momentum1_offsets"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::momentum1_placements"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::momentum1_uvm"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::offsets"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::output_dtype"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::pooling_mode"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::stochastic_rounding"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::total_D"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::total_hash_size_bits"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::uvm_weights"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::vbe_output_size"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::weight_decay"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::weight_decay_mode"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::weights_offsets"], [0, 1, 1, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function::weights_placements"], [0, 0, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::B_offsets"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::D_offsets"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::dev_weights"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::eps"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::feature_requires_grad"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::gradient_clipping"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::hash_size_cumsum"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::indice_weights"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::indices"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::is_experimental"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::iter"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::learning_rate"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::lxu_cache_locations"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::lxu_cache_weights"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::max_B"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::max_B_feature_rank"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::max_D"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::max_gradient"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::momentum1_dev"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::momentum1_offsets"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::momentum1_placements"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::momentum1_uvm"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::offsets"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::output_dtype"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::pooling_mode"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::stochastic_rounding"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::total_D"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::total_hash_size_bits"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::uvm_weights"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::vbe_output_size"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::weight_decay"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::weights_offsets"], [0, 1, 1, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function::weights_placements"], [0, 0, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::B_offsets"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::D_offsets"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::dev_weights"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::feature_requires_grad"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::gradient_clipping"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::hash_size_cumsum"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::indice_weights"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::indices"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::is_experimental"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::learning_rate"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::lxu_cache_locations"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::lxu_cache_weights"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::max_B"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::max_B_feature_rank"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::max_D"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::max_gradient"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::offsets"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::output_dtype"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::placeholder_autograd_tensor"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::pooling_mode"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::stochastic_rounding"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::total_D"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::total_hash_size_bits"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::use_homogeneous_placements"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::use_uniq_cache_locations_bwd"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::uvm_weights"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::vbe_B_offsets_rank_per_feature"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::vbe_output_offsets_feature_rank"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::vbe_output_size"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::weights_offsets"], [0, 1, 1, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb", "split_embedding_codegen_lookup_sgd_function::weights_placements"], [1, 0, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu"], [1, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::include_last_offsets"], [1, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::indices_list"], [1, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::offsets_list"], [1, 1, 1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE", "tbe_input_combine_cpu::per_sample_weights"], [4, 0, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise"], [4, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::cuda_memory_advise"], [4, 1, 1, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t", "uvm_cuda_mem_advise::self"], [4, 0, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async"], [4, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::device_t"], [4, 1, 1, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE", "uvm_cuda_mem_prefetch_async::self"], [4, 0, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork"], [4, 1, 1, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor", "uvm_mem_advice_dont_fork::self"], [4, 0, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage"], [4, 1, 1, "_CPPv411uvm_storageRK6Tensor", "uvm_storage::self"], [4, 0, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu"], [4, 1, 1, "_CPPv410uvm_to_cpuRK6Tensor", "uvm_to_cpu::self"], [4, 0, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone"], [4, 1, 1, "_CPPv416uvm_to_cpu_cloneRK6Tensor", "uvm_to_cpu_clone::self"], [4, 0, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device"], [4, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::prototype"], [4, 1, 1, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor", "uvm_to_device::self"], [15, 3, 0, "-", "fbgemm_gpu"]], "fbgemm_gpu.split_table_batched_embeddings_ops": [[15, 4, 1, "", "SplitTableBatchedEmbeddingBagsCodegen"]], "torch.ops.fbgemm": [[14, 4, 1, "", "batched_dense_vec_jagged_2d_mul"], [14, 4, 1, "", "dense_to_jagged"], [14, 4, 1, "", "jagged_1d_to_dense"], [14, 4, 1, "", "jagged_2d_to_dense"], [14, 4, 1, "", "jagged_dense_dense_elementwise_add_jagged_output"], [14, 4, 1, "", "jagged_dense_elementwise_add"], [14, 4, 1, "", "jagged_dense_elementwise_add_jagged_output"], [14, 4, 1, "", "jagged_dense_elementwise_mul"], [14, 4, 1, "", "jagged_to_padded_dense"], [14, 4, 1, "", "stacked_jagged_1d_to_dense"], [14, 4, 1, "", "stacked_jagged_2d_to_dense"]]}, "objtypes": {"0": "cpp:function", "1": "cpp:functionParam", "2": "cpp:templateParam", "3": "py:module", "4": "py:function"}, "objnames": {"0": ["cpp", "function", "C++ function"], "1": ["cpp", "functionParam", "C++ function parameter"], "2": ["cpp", "templateParam", "C++ template parameter"], "3": ["py", "module", "Python module"], "4": ["py", "function", "Python function"]}, "titleterms": {"embed": [0, 5, 8, 15], "oper": [0, 1, 2, 3, 4, 5, 6, 7, 8, 14, 15], "cuda": [0, 2, 3, 4, 6, 7, 9, 11, 12], "cpu": [0, 2, 3, 6, 7, 9, 11], "combin": 1, "input": 1, "jag": [2, 14], "tensor": [2, 14], "layout": 3, "transform": 3, "memori": 4, "pool": 5, "merg": 5, "permut": 5, "quantiz": 6, "spars": 7, "data": [7, 18], "tabl": [8, 15, 17, 18, 19, 20, 21, 22], "batch": [8, 15], "build": [9, 10, 17], "instruct": [9, 11], "set": [9, 10, 11], "up": [9, 10, 11], "an": [9, 23], "isol": 9, "environ": [9, 10, 11], "instal": [9, 11, 24], "miniconda": 9, "conda": [9, 11], "onli": [9, 11], "docker": [9, 11], "imag": [9, 19, 20], "cudnn": 9, "rocm": [9, 11, 12], "miopen": 9, "tool": 9, "c": [9, 10, 13], "compil": 9, "other": 9, "pytorch": [9, 11], "through": [9, 11], "pip": [9, 11], "post": [9, 11], "check": [9, 11], "fbgemm_gpu": [9, 10, 11, 12, 13], "packag": [9, 11], "prepar": 9, "The": [9, 19], "process": 9, "For": 9, "develop": 9, "undefin": [9, 11], "symbol": [9, 11], "glibc": 9, "version": 9, "compat": 9, "contribut": 10, "document": [10, 13, 22, 23], "api": [10, 13], "toolchain": 10, "deploy": 10, "preview": 10, "gener": [10, 13, 18], "guidelin": 10, "ad": 10, "python": [10, 11, 13], "code": [10, 19], "nvidia": 11, "driver": 11, "contain": 11, "runtim": 11, "amdgpu": 11, "librari": 11, "public": 11, "pypi": 11, "test": 12, "variant": 12, "benchmark": 12, "welcom": 13, "fbgemm": 13, "": 13, "info": 13, "tbe": 15, "changelog": 16, "configur": 17, "project": 17, "wide": 17, "html": 17, "theme": [17, 23], "option": [17, 18, 20], "base": 17, "toc": 17, "context": 17, "page": 17, "level": [17, 19, 20], "how": 17, "content": [17, 18, 19, 20, 21, 22], "mod": 18, "test_py_modul": 18, "index": 18, "paramet": 18, "arg": 18, "paragraph": [19, 22], "markup": 19, "inlin": 19, "math": 19, "meta": 19, "block": 19, "liter": 19, "line": 19, "quot": 19, "doctest": 19, "emphas": 19, "number": [19, 20], "sidebar": 19, "ch": 19, "ien": 19, "creativ": 19, "A": 19, "exampl": [19, 21], "refer": 19, "footnot": 19, "citat": 19, "glossari": 19, "target": 19, "direct": 19, "center": 19, "text": 19, "figur": 19, "admonit": 19, "And": 19, "wai": 19, "topic": 19, "rubric": 19, "titl": 19, "replac": 19, "compound": 19, "download": [19, 24], "link": 19, "list": 20, "enumer": 20, "definit": 20, "field": 20, "bullet": 20, "second": 20, "But": 20, "deeper": 20, "down": 20, "rabbit": 20, "hole": 20, "hlist": 20, "grid": 20, "giant": 20, "can": 20, "have": 20, "caption": [20, 23], "like": 20, "thi": [20, 23], "one": 20, "i": [20, 23], "long": [21, 23], "sticki": 21, "nav": 21, "menu": [21, 23], "1": 21, "2": [21, 22], "3": 21, "4": 21, "5": 21, "6": 21, "7": 21, "8": 21, "9": 21, "10": 21, "11": 21, "12": 21, "13": 21, "14": 21, "15": 21, "16": 21, "17": 21, "18": 21, "19": 21, "20": 21, "submenu": 21, "subsubmenu": 21, "structur": 22, "element": 22, "section": 22, "subsect": 22, "subsubsect": 22, "demo": 23, "incredibli": 23, "via": 24, "git": 24}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.intersphinx": 1, "sphinx": 57}, "alltitles": {"Embedding Operators": [[0, "embedding-operators"]], "CUDA Operators": [[0, "cuda-operators"], [2, "cuda-operators"], [3, "cuda-operators"], [6, "cuda-operators"], [7, "cuda-operators"]], "CPU Operators": [[0, "cpu-operators"], [2, "cpu-operators"], [3, "cpu-operators"], [6, "cpu-operators"], [7, "cpu-operators"]], "Combine Input Operators": [[1, "combine-input-operators"]], "Jagged Tensor Operators": [[2, "jagged-tensor-operators"], [14, "module-fbgemm_gpu"]], "Layout Transformation Operators": [[3, "layout-transformation-operators"]], "CUDA Memory Operators": [[4, "cuda-memory-operators"]], "Pooled Embeddings Operators": [[5, "pooled-embeddings-operators"]], "Merge Operators": [[5, "merge-operators"]], "Permutation Operators": [[5, "permutation-operators"]], "Quantization Operators": [[6, "quantization-operators"]], "Sparse Data Operators": [[7, "sparse-data-operators"]], "Table Batched Embedding Operators": [[8, "table-batched-embedding-operators"]], "Build Instructions": [[9, "build-instructions"]], "Set Up an Isolated Build Environment": [[9, "set-up-an-isolated-build-environment"]], "Install Miniconda": [[9, "install-miniconda"]], "Set Up the Conda Environment": [[9, "set-up-the-conda-environment"]], "Set Up for CPU-Only Build": [[9, "set-up-for-cpu-only-build"]], "Set Up for CUDA Build": [[9, "set-up-for-cuda-build"]], "CUDA Docker Image": [[9, "cuda-docker-image"]], "Install CUDA": [[9, "install-cuda"]], "Install cuDNN": [[9, "install-cudnn"]], "Set Up for ROCm Build": [[9, "set-up-for-rocm-build"]], "ROCm Docker Image": [[9, "rocm-docker-image"]], "Install ROCm": [[9, "install-rocm"]], "Install MIOpen": [[9, "install-miopen"]], "Install the Build Tools": [[9, "install-the-build-tools"]], "C/C++ Compiler": [[9, "c-c-compiler"]], "Other Build Tools": [[9, "other-build-tools"]], "Install PyTorch": [[9, "install-pytorch"], [11, "install-pytorch"]], "Installation Through Conda": [[9, "installation-through-conda"]], "Installation Through PyTorch PIP": [[9, "installation-through-pytorch-pip"]], "Post-Install Checks": [[9, "post-install-checks"]], "Build the FBGEMM_GPU Package": [[9, "build-the-fbgemm-gpu-package"]], "Preparing the Build": [[9, "preparing-the-build"]], "The Build Process": [[9, "the-build-process"]], "CUDA Build": [[9, "cuda-build"]], "ROCm Build": [[9, "rocm-build"]], "CPU-Only Build": [[9, "cpu-only-build"]], "Post-Build Checks (For Developers)": [[9, "post-build-checks-for-developers"]], "Undefined Symbols Check": [[9, "undefined-symbols-check"]], "GLIBC Version Compatibility Check": [[9, "glibc-version-compatibility-check"]], "Contributing Documentation": [[10, "contributing-documentation"]], "Building the API Documentation": [[10, "building-the-api-documentation"]], "Set Up Build Environment": [[10, "set-up-build-environment"]], "Build FBGEMM_GPU": [[10, "build-fbgemm-gpu"]], "Set Up Documentation Toolchain": [[10, "set-up-documentation-toolchain"]], "Build the Documentation": [[10, "build-the-documentation"]], "Deployment Preview": [[10, "deployment-preview"]], "General Documentation Guidelines": [[10, "general-documentation-guidelines"]], "Adding Documentation to Python Code": [[10, "adding-documentation-to-python-code"]], "Adding Documentation to C++ Code": [[10, "adding-documentation-to-c-code"]], "Installation Instructions": [[11, "installation-instructions"]], "Set Up CPU-Only Environment": [[11, "set-up-cpu-only-environment"]], "Set Up CUDA Environment": [[11, "set-up-cuda-environment"]], "Install NVIDIA Drivers": [[11, "install-nvidia-drivers"]], "Set Up the Docker Container and Conda Environment": [[11, "set-up-the-docker-container-and-conda-environment"], [11, "id1"]], "Install the CUDA Runtime": [[11, "install-the-cuda-runtime"]], "Set Up ROCm Environment": [[11, "set-up-rocm-environment"]], "Install AMDGPU Drivers": [[11, "install-amdgpu-drivers"]], "Install Python Libraries": [[11, "install-python-libraries"]], "Install the FBGEMM_GPU Package": [[11, "install-the-fbgemm-gpu-package"]], "Install through PyTorch PIP": [[11, "install-through-pytorch-pip"]], "Install through Public PyPI": [[11, "install-through-public-pypi"]], "Post-Installation Checks": [[11, "post-installation-checks"]], "Undefined Symbols": [[11, "undefined-symbols"]], "Testing FBGEMM_GPU": [[12, "testing-fbgemm-gpu"]], "FBGEMM_GPU Tests": [[12, "fbgemm-gpu-tests"]], "Testing with the CUDA Variant": [[12, "testing-with-the-cuda-variant"]], "Testing with the ROCm Variant": [[12, "testing-with-the-rocm-variant"]], "FBGEMM_GPU Benchmarks": [[12, "fbgemm-gpu-benchmarks"]], "Welcome to FBGEMM\u2019s documentation!": [[13, "welcome-to-fbgemm-s-documentation"]], "FBGEMM_GPU General Info": [[13, null]], "FBGEMM_GPU Python API": [[13, null]], "FBGEMM_GPU C++ API": [[13, null]], "Table Batched Embedding (TBE) Operators": [[15, "module-fbgemm_gpu"]], "Changelog": [[16, "changelog"]], "Configuration": [[17, "configuration"]], "Project-wide Configuration": [[17, "project-wide-configuration"]], "HTML Theme Options": [[17, "html-theme-options"]], "Base options": [[17, "base-options"]], "TOC Options": [[17, "toc-options"]], "HTML Context Options": [[17, "html-context-options"]], "Page-level Configuration": [[17, "page-level-configuration"]], "How the Table of Contents builds": [[17, "how-the-table-of-contents-builds"]], ":mod:`test_py_module`": [[18, "mod-test-py-module"]], "Table of Contents": [[18, "table-of-contents"], [19, "table-of-contents"], [20, "table-of-contents"], [21, "table-of-contents"], [22, "table-of-contents"]], "Generated Index": [[18, "generated-index"]], "Optional parameter args": [[18, "optional-parameter-args"]], "Data": [[18, "data"]], "Paragraph Level Markup": [[19, "paragraph-level-markup"]], "Inline Markup": [[19, "inline-markup"]], "Math": [[19, "math"]], "Meta": [[19, "meta"]], "Blocks": [[19, "blocks"]], "Literal Blocks": [[19, "literal-blocks"]], "Line Blocks": [[19, "line-blocks"]], "Block Quotes": [[19, "block-quotes"]], "Doctest Blocks": [[19, "doctest-blocks"]], "Code Blocks": [[19, "code-blocks"]], "Emphasized lines with line numbers": [[19, "emphasized-lines-with-line-numbers"]], "Sidebar": [[19, "sidebar"]], "Ch\u2019ien / The Creative": [[19, null]], "Code with Sidebar": [[19, "code-with-sidebar"]], "A code example": [[19, null]], "References": [[19, "references"]], "Footnotes": [[19, "footnotes"]], "Citations": [[19, "citations"]], "Glossary": [[19, "glossary"]], "Targets": [[19, "targets"]], "Directives": [[19, "directives"]], "Contents": [[19, "contents"]], "Centered text": [[19, "centered-text"]], "Images & Figures": [[19, "images-figures"]], "Images": [[19, "images"]], "Figures": [[19, "figures"]], "Admonitions": [[19, "admonitions"]], "And, by the way\u2026": [[19, null]], "Topics, Sidebars, and Rubrics": [[19, "topics-sidebars-and-rubrics"]], "Sidebar Title": [[19, null]], "Topic Title": [[19, null]], "Target Footnotes": [[19, "target-footnotes"]], "Replacement Text": [[19, "replacement-text"]], "Compound Paragraph": [[19, "compound-paragraph"]], "Download Links": [[19, "download-links"]], "Lists & Tables": [[20, "lists-tables"]], "Lists": [[20, "lists"]], "Enumerated Lists": [[20, "enumerated-lists"]], "Definition Lists": [[20, "definition-lists"]], "Option Lists": [[20, "option-lists"]], "Field list": [[20, "field-list"]], "Bullet Lists": [[20, "bullet-lists"]], "Second list level": [[20, "second-list-level"]], "But deeper down the rabbit hole": [[20, "but-deeper-down-the-rabbit-hole"]], "Hlists": [[20, "hlists"]], "Numbered List": [[20, "numbered-list"]], "Tables": [[20, "tables"]], "Grid Tables": [[20, "grid-tables"]], "Giant Tables": [[20, "giant-tables"]], "List Tables": [[20, "list-tables"]], "List tables can have captions like this one.": [[20, "id13"]], "This is a list table with images in it.": [[20, "id14"]], "Long Sticky Nav": [[21, "long-sticky-nav"]], "Example Menu 1": [[21, "example-menu-1"]], "Example Menu 2": [[21, "example-menu-2"]], "Example Menu 3": [[21, "example-menu-3"]], "Example Menu 4": [[21, "example-menu-4"]], "Example Menu 5": [[21, "example-menu-5"]], "Example Menu 6": [[21, "example-menu-6"]], "Example Menu 7": [[21, "example-menu-7"]], "Example Menu 8": [[21, "example-menu-8"]], "Example Menu 9": [[21, "example-menu-9"]], "Example Menu 10": [[21, "example-menu-10"]], "Example Menu 11": [[21, "example-menu-11"]], "Example Menu 12": [[21, "example-menu-12"]], "Example Menu 13": [[21, "example-menu-13"]], "Example Menu 14": [[21, "example-menu-14"]], "Example Menu 15": [[21, "example-menu-15"]], "Example Menu 16": [[21, "example-menu-16"]], "Example Menu 17": [[21, "example-menu-17"]], "Example Menu 18": [[21, "example-menu-18"]], "Example Menu 19": [[21, "example-menu-19"]], "Example Menu 20": [[21, "example-menu-20"]], "Example Submenu 1": [[21, "example-submenu-1"]], "Submenu 1": [[21, "submenu-1"], [21, "id2"]], "Subsubmenu 1": [[21, "subsubmenu-1"], [21, "id1"], [21, "id3"], [21, "id5"]], "Subsubmenu 2": [[21, "subsubmenu-2"]], "Submenu 2": [[21, "submenu-2"], [21, "id4"]], "Submenu 3": [[21, "submenu-3"], [21, "id6"]], "Submenu 4": [[21, "submenu-4"], [21, "id7"]], "Submenu 5": [[21, "submenu-5"], [21, "id8"]], "Example Submenu 2": [[21, "example-submenu-2"]], "Structural Elements": [[22, "structural-elements"]], "Document Section": [[22, "document-section"], [22, "id1"]], "Document Subsection": [[22, "document-subsection"], [22, "id2"]], "Document Subsubsection": [[22, "document-subsubsection"]], "Document Paragraph": [[22, "document-paragraph"]], "Structural Elements 2": [[22, "structural-elements-2"]], "Theme Documentation": [[23, null]], "Demo Documents": [[23, null]], "This is an incredibly long caption for a long menu": [[23, null]], "Installation": [[24, "installation"]], "Via Git or Download": [[24, "via-git-or-download"]]}, "indexentries": {"bounds_check_indices_cuda (c++ function)": [[0, "_CPPv425bounds_check_indices_cudaR6TensorR6TensorR6Tensor7int64_tR6TensorRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_t"]], "int_nbit_split_embedding_codegen_lookup_function (c++ function)": [[0, "_CPPv448int_nbit_split_embedding_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_codegen_lookup_function_cpu (c++ function)": [[0, "_CPPv452int_nbit_split_embedding_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function (c++ function)": [[0, "_CPPv460int_nbit_split_embedding_uvm_caching_codegen_lookup_function6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu (c++ function)": [[0, "_CPPv464int_nbit_split_embedding_uvm_caching_codegen_lookup_function_cpu6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor7int64_t7int64_t7int64_t7int64_t7int64_t7int64_t6Tensor6Tensor7int64_tN3c108optionalI6TensorEE7int64_tN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI7int64_tEEN3c108optionalI6TensorEEN3c108optionalI6TensorEEN3c108optionalI6TensorEE"]], "pruned_array_lookup_cpu (c++ function)": [[0, "_CPPv423pruned_array_lookup_cpu6Tensor6Tensor6Tensor6Tensor"]], "pruned_array_lookup_cuda (c++ function)": [[0, "_CPPv424pruned_array_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_insert_unweighted_cpu (c++ function)": [[0, "_CPPv436pruned_hashmap_insert_unweighted_cpu6Tensor6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_cuda (c++ function)": [[0, "_CPPv426pruned_hashmap_lookup_cuda6Tensor6Tensor6Tensor6Tensor"]], "pruned_hashmap_lookup_unweighted_cpu (c++ function)": [[0, "_CPPv436pruned_hashmap_lookup_unweighted_cpu6Tensor6Tensor6Tensor6Tensor"]], "split_embedding_codegen_lookup_adagrad_function (c++ function)": [[0, "_CPPv447split_embedding_codegen_lookup_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_adam_function (c++ function)": [[0, "_CPPv444split_embedding_codegen_lookup_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_approx_rowwise_adagrad_function (c++ function)": [[0, "_CPPv462split_embedding_codegen_lookup_approx_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_function (c++ function)": [[0, "_CPPv475split_embedding_codegen_lookup_approx_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_function (c++ function)": [[0, "_CPPv480split_embedding_codegen_lookup_approx_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_approx_sgd_function (c++ function)": [[0, "_CPPv450split_embedding_codegen_lookup_approx_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_lamb_function (c++ function)": [[0, "_CPPv444split_embedding_codegen_lookup_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_lars_sgd_function (c++ function)": [[0, "_CPPv448split_embedding_codegen_lookup_lars_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6TensorddddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_none_function (c++ function)": [[0, "_CPPv444split_embedding_codegen_lookup_none_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6Tensor7int64_t7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_partial_rowwise_adam_function (c++ function)": [[0, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_adam_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_partial_rowwise_lamb_function (c++ function)": [[0, "_CPPv460split_embedding_codegen_lookup_partial_rowwise_lamb_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_rowwise_adagrad_function (c++ function)": [[0, "_CPPv455split_embedding_codegen_lookup_rowwise_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_rowwise_adagrad_with_counter_function (c++ function)": [[0, "_CPPv468split_embedding_codegen_lookup_rowwise_adagrad_with_counter_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensor6Tensorddd7int64_t7int64_t7int64_td7int64_t7int64_t7int64_tdd7int64_t7int64_tddK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_function (c++ function)": [[0, "_CPPv473split_embedding_codegen_lookup_rowwise_adagrad_with_weight_decay_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_rowwise_weighted_adagrad_function (c++ function)": [[0, "_CPPv464split_embedding_codegen_lookup_rowwise_weighted_adagrad_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKb6Tensor6Tensor6Tensor6Tensorddd7int64_tK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "split_embedding_codegen_lookup_sgd_function (c++ function)": [[0, "_CPPv443split_embedding_codegen_lookup_sgd_functionRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorRK6TensorK7int64_tK7int64_tRK6TensorK7int64_tRK6TensorRK6TensorK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERK6TensorKbKdKbdK7int64_tRKN3c108optionalI6TensorEERKN3c108optionalI6TensorEERKN3c108optionalI6TensorEEK7int64_tK7int64_tK7int64_tKbKbKb"]], "padding_fused_tbe_input_combine_cpu (c++ function)": [[1, "_CPPv435padding_fused_tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE7int64_t"]], "tbe_input_combine_cpu (c++ function)": [[1, "_CPPv421tbe_input_combine_cpuRKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKNSt6vectorIN2at6TensorEEERKN2at6TensorE"]], "batched_dense_vec_jagged_2d_mul (c++ function)": [[2, "_CPPv431batched_dense_vec_jagged_2d_mulRK6TensorRK6TensorRK6Tensor"]], "dense_to_jagged (c++ function)": [[2, "_CPPv415dense_to_jaggedRK6TensorRKNSt6vectorI6TensorEEN3c108optionalIN2at6SymIntEEE"]], "jagged_1d_to_dense (c++ function)": [[2, "_CPPv418jagged_1d_to_dense6Tensor6TensorN3c106SymIntE7int64_t"]], "jagged_2d_to_dense (c++ function)": [[2, "_CPPv418jagged_2d_to_dense6Tensor6TensorN3c106SymIntE"]], "jagged_dense_elementwise_add (c++ function)": [[2, "_CPPv428jagged_dense_elementwise_addRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output (c++ function)": [[2, "_CPPv442jagged_dense_elementwise_add_jagged_outputRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_add_jagged_output_cuda (c++ function)": [[2, "_CPPv447jagged_dense_elementwise_add_jagged_output_cudaRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_dense_elementwise_mul (c++ function)": [[2, "_CPPv428jagged_dense_elementwise_mulRK6TensorRKNSt6vectorI6TensorEERK6Tensor"]], "jagged_to_padded_dense (c++ function)": [[2, "_CPPv422jagged_to_padded_denseRK6TensorRKNSt6vectorI6TensorEEKN3c1014SymIntArrayRefEKd"]], "jagged_to_padded_dense_forward (c++ function)": [[2, "_CPPv430jagged_to_padded_dense_forwardRK6TensorRKNSt6vectorI6TensorEEN3c1014SymIntArrayRefEKd"]], "recat_embedding_grad_output_cuda (c++ function)": [[3, "_CPPv432recat_embedding_grad_output_cuda6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_batch_cuda (c++ function)": [[3, "_CPPv446recat_embedding_grad_output_mixed_D_batch_cudaRK6TensorRK6TensorRK6Tensor"]], "recat_embedding_grad_output_mixed_d_cpu (c++ function)": [[3, "_CPPv439recat_embedding_grad_output_mixed_D_cpuRK6TensorRKNSt6vectorI7int64_tEE"]], "recat_embedding_grad_output_mixed_d_cuda (c++ function)": [[3, "_CPPv440recat_embedding_grad_output_mixed_D_cudaRK6TensorRKNSt6vectorI7int64_tEE"]], "is_uvm_tensor (c++ function)": [[4, "_CPPv413is_uvm_tensorRK6Tensor"]], "new_host_mapped_tensor (c++ function)": [[4, "_CPPv422new_host_mapped_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor (c++ function)": [[4, "_CPPv418new_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_managed_tensor_meta (c++ function)": [[4, "_CPPv423new_managed_tensor_metaRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "new_unified_tensor (c++ function)": [[4, "_CPPv418new_unified_tensorRK6TensorRKNSt6vectorINSt7int64_tEEEb"]], "new_vanilla_managed_tensor (c++ function)": [[4, "_CPPv426new_vanilla_managed_tensorRK6TensorRKNSt6vectorINSt7int64_tEEE"]], "uvm_cuda_mem_advise (c++ function)": [[4, "_CPPv419uvm_cuda_mem_adviseRK6Tensor7int64_t"]], "uvm_cuda_mem_prefetch_async (c++ function)": [[4, "_CPPv427uvm_cuda_mem_prefetch_asyncRK6TensorN3c108optionalI6TensorEE"]], "uvm_mem_advice_dont_fork (c++ function)": [[4, "_CPPv424uvm_mem_advice_dont_forkRK6Tensor"]], "uvm_storage (c++ function)": [[4, "_CPPv411uvm_storageRK6Tensor"]], "uvm_to_cpu (c++ function)": [[4, "_CPPv410uvm_to_cpuRK6Tensor"]], "uvm_to_cpu_clone (c++ function)": [[4, "_CPPv416uvm_to_cpu_cloneRK6Tensor"]], "uvm_to_device (c++ function)": [[4, "_CPPv413uvm_to_deviceRK6TensorRK6Tensor"]], "all_to_one_device (c++ function)": [[5, "_CPPv417all_to_one_deviceNSt6vectorIN2at6TensorEEEN2at6DeviceE"]], "permute_pooled_embs_auto_grad (c++ function)": [[5, "_CPPv429permute_pooled_embs_auto_gradRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_cpu (c++ function)": [[5, "_CPPv433permute_pooled_embs_auto_grad_cpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_gpu (c++ function)": [[5, "_CPPv433permute_pooled_embs_auto_grad_gpuRK6TensorRK6TensorRK6TensorRK6TensorRK6Tensor"]], "permute_pooled_embs_auto_grad_split_cpu (c++ function)": [[5, "_CPPv439permute_pooled_embs_auto_grad_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_auto_grad_split_gpu (c++ function)": [[5, "_CPPv439permute_pooled_embs_auto_grad_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_cpu_impl (c++ function)": [[5, "_CPPv428permute_pooled_embs_cpu_implRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKb"]], "permute_pooled_embs_split_cpu (c++ function)": [[5, "_CPPv429permute_pooled_embs_split_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "permute_pooled_embs_split_gpu (c++ function)": [[5, "_CPPv429permute_pooled_embs_split_gpuRKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorERKN2at6TensorE"]], "fp8quantizedtofloat_ref (c++ function)": [[6, "_CPPv423FP8QuantizedToFloat_refPCK7uint8_tK6size_tK6size_tPCfKiKi"]], "fp8rowwise_to_float_cpu (c++ function)": [[6, "_CPPv423FP8rowwise_to_float_cpuRK6TensorbK7int64_t"]], "floattofp8quantized_ref (c++ function)": [[6, "_CPPv423FloatToFP8Quantized_refPCKfK6size_tK6size_tPC7uint8_tKiKiKd"]], "_float_to_fused8bitrowwise_cpu_out (c++ function)": [[6, "_CPPv434_float_to_fused8bitrowwise_cpu_outR6TensorRK6Tensor"]], "_float_to_fusednbitrowwise_gpu_t (c++ function)": [[6, "_CPPv4I0E32_float_to_fusednbitrowwise_gpu_t6TensorRK6TensorK7int64_t"]], "_fused8bitrowwise_to_float_cpu_out (c++ function)": [[6, "_CPPv434_fused8bitrowwise_to_float_cpu_outR6TensorRK6Tensor"]], "_fusednbitrowwise_to_float_gpu_t (c++ function)": [[6, "_CPPv4I0E32_fusednbitrowwise_to_float_gpu_t6TensorRK6TensorK7int64_t"]], "float_or_half_to_fused8bitrowwise_cpu (c++ function)": [[6, "_CPPv437float_or_half_to_fused8bitrowwise_cpuRK6Tensor"]], "float_to_fp8rowwise_cpu (c++ function)": [[6, "_CPPv423float_to_FP8rowwise_cpuRK6Tensorb"]], "float_to_fused8bitrowwise_cpu (c++ function)": [[6, "_CPPv429float_to_fused8bitrowwise_cpuRK6Tensor"]], "fused8bitrowwise_to_float_cpu (c++ function)": [[6, "_CPPv429fused8bitrowwise_to_float_cpuRK6Tensor"]], "fused8bitrowwise_to_float_or_half_cpu (c++ function)": [[6, "_CPPv437fused8bitrowwise_to_float_or_half_cpuRK6TensorK7int64_t"]], "fused8bitrowwise_to_half_cpu (c++ function)": [[6, "_CPPv428fused8bitrowwise_to_half_cpuRK6Tensor"]], "fusednbitrowwise_to_float_cpu (c++ function)": [[6, "_CPPv429fusednbitrowwise_to_float_cpuRK6TensorK7int64_t"]], "fusednbitrowwise_to_float_or_half_cpu (c++ function)": [[6, "_CPPv437fusednbitrowwise_to_float_or_half_cpuRK6TensorK7int64_tK7int64_t"]], "fusednbitrowwise_to_half_cpu (c++ function)": [[6, "_CPPv428fusednbitrowwise_to_half_cpuRK6TensorK7int64_t"]], "half_to_fused8bitrowwise_cpu (c++ function)": [[6, "_CPPv428half_to_fused8bitrowwise_cpuRK6Tensor"]], "expand_into_jagged_permute_cuda (c++ function)": [[7, "_CPPv431expand_into_jagged_permute_cudaRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_t"]], "generic_histogram_binning_calibration_by_feature_cpu (c++ function)": [[7, "_CPPv452generic_histogram_binning_calibration_by_feature_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorE7int64_tRKN2at6TensorERKN2at6TensorERKN2at6TensorEd7int64_td"]], "histogram_binning_calibration_cpu (c++ function)": [[7, "_CPPv433histogram_binning_calibration_cpuRKN2at6TensorERKN2at6TensorERKN2at6TensorEddd7int64_td"]], "direct_mapped_lru_cache_populate_byte_cuda (c++ function)": [[8, "_CPPv442direct_mapped_lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "direct_mapped_lxu_cache_lookup_cuda (c++ function)": [[8, "_CPPv435direct_mapped_lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "get_unique_indices_cuda (c++ function)": [[8, "_CPPv423get_unique_indices_cudaN2at6TensorE7int64_tb"]], "host_lxu_cache_slot (c++ function)": [[8, "_CPPv419host_lxu_cache_slot7int64_t7int64_t"]], "lfu_cache_populate_byte_cuda (c++ function)": [[8, "_CPPv428lfu_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "lfu_cache_populate_cuda (c++ function)": [[8, "_CPPv423lfu_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEb"]], "linearize_cache_indices_cuda (c++ function)": [[8, "_CPPv428linearize_cache_indices_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "linearize_cache_indices_from_row_idx_cuda (c++ function)": [[8, "_CPPv441linearize_cache_indices_from_row_idx_cudaN2at6TensorEN2at6TensorEN2at6TensorE"]], "lru_cache_find_uncached_cuda (c++ function)": [[8, "_CPPv428lru_cache_find_uncached_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tN2at6TensorEbN2at6TensorEbN2at6TensorE"]], "lru_cache_populate_byte_cuda (c++ function)": [[8, "_CPPv428lru_cache_populate_byte_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEE"]], "lru_cache_populate_cuda (c++ function)": [[8, "_CPPv423lru_cache_populate_cudaN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEbbN3c108optionalIN2at6TensorEEEbN3c108optionalIN2at6TensorEEE"]], "lxu_cache_flush_cuda (c++ function)": [[8, "_CPPv420lxu_cache_flush_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_tN2at6TensorEN2at6TensorEb"]], "lxu_cache_locations_update_cuda (c++ function)": [[8, "_CPPv431lxu_cache_locations_update_cudaN2at6TensorEN2at6TensorEN3c108optionalIN2at6TensorEEE"]], "lxu_cache_locking_counter_decrement_cuda (c++ function)": [[8, "_CPPv440lxu_cache_locking_counter_decrement_cudaN2at6TensorEN2at6TensorE"]], "lxu_cache_lookup_cuda (c++ function)": [[8, "_CPPv421lxu_cache_lookup_cudaN2at6TensorEN2at6TensorE7int64_tbN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEEN3c108optionalIN2at6TensorEEE"]], "reset_weight_momentum_cuda (c++ function)": [[8, "_CPPv426reset_weight_momentum_cudaN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorEN2at6TensorE7int64_t"]], "batched_dense_vec_jagged_2d_mul() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.batched_dense_vec_jagged_2d_mul"]], "dense_to_jagged() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.dense_to_jagged"]], "fbgemm_gpu": [[14, "module-fbgemm_gpu"], [15, "module-fbgemm_gpu"]], "jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_1d_to_dense"]], "jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_2d_to_dense"]], "jagged_dense_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_dense_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_add() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_dense_elementwise_add"]], "jagged_dense_elementwise_add_jagged_output() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_dense_elementwise_add_jagged_output"]], "jagged_dense_elementwise_mul() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_dense_elementwise_mul"]], "jagged_to_padded_dense() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.jagged_to_padded_dense"]], "module": [[14, "module-fbgemm_gpu"], [15, "module-fbgemm_gpu"]], "stacked_jagged_1d_to_dense() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.stacked_jagged_1d_to_dense"]], "stacked_jagged_2d_to_dense() (in module torch.ops.fbgemm)": [[14, "torch.ops.fbgemm.stacked_jagged_2d_to_dense"]], "splittablebatchedembeddingbagscodegen() (in module fbgemm_gpu.split_table_batched_embeddings_ops)": [[15, "fbgemm_gpu.split_table_batched_embeddings_ops.SplitTableBatchedEmbeddingBagsCodegen"]], "documentation": [[19, "term-Documentation"]], "pep 287": [[19, "index-0"]], "python enhancement proposals": [[19, "index-0"]], "rfc": [[19, "index-1"]], "rfc 2822": [[19, "index-1"]], "reading": [[19, "term-Reading"]], "writing": [[19, "term-Writing"]]}})
\ No newline at end of file
diff --git a/sparse__async__cumsum_8cu.html b/sparse__async__cumsum_8cu.html
new file mode 100644
index 000000000..663c941a2
--- /dev/null
+++ b/sparse__async__cumsum_8cu.html
@@ -0,0 +1,190 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_async_cumsum.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_async_cumsum.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a956fe5a496592a618c66c5cdd7e76aee" name="a956fe5a496592a618c66c5cdd7e76aee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a956fe5a496592a618c66c5cdd7e76aee">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;asynchronous_complete_cumsum&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a1f31ee9922c98ad5d013361368f2f5ac">fbgemm_gpu::asynchronous_complete_cumsum_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a37ee97bf0cf5f3e51b626963d0905d5d" name="a37ee97bf0cf5f3e51b626963d0905d5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a37ee97bf0cf5f3e51b626963d0905d5d">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;asynchronous_exclusive_cumsum&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#afd8b0919b5b3b021a8eb3727e304d5b4">fbgemm_gpu::asynchronous_exclusive_cumsum_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1fe1796f45f950ba568e1f5fb38d3da8" name="a1fe1796f45f950ba568e1f5fb38d3da8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fe1796f45f950ba568e1f5fb38d3da8">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;asynchronous_inclusive_cumsum&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#acc0c0e7f6e816900474b2e52756ac891">fbgemm_gpu::asynchronous_inclusive_cumsum_gpu</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__batched__unary__embeddings_8cu.html b/sparse__batched__unary__embeddings_8cu.html
new file mode 100644
index 000000000..6b73c2bd1
--- /dev/null
+++ b/sparse__batched__unary__embeddings_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_batched_unary_embeddings.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_batched_unary_embeddings.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__block__bucketize__features_8cu.html b/sparse__block__bucketize__features_8cu.html
new file mode 100644
index 000000000..37695bd36
--- /dev/null
+++ b/sparse__block__bucketize__features_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_block_bucketize_features.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_block_bucketize_features.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ac393348a81fe14a2734e4a221b3e028c" name="ac393348a81fe14a2734e4a221b3e028c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac393348a81fe14a2734e4a221b3e028c">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;block_bucketize_sparse_features&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a293dc249ac4679d97747778a7fb02bd5">fbgemm_gpu::block_bucketize_sparse_features_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__bucketize__features_8cu.html b/sparse__bucketize__features_8cu.html
new file mode 100644
index 000000000..aaa588ed7
--- /dev/null
+++ b/sparse__bucketize__features_8cu.html
@@ -0,0 +1,145 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_bucketize_features.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_bucketize_features.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791" id="r_ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791">__launch_bounds__</a> (kMaxThreads) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">jagged_jagged_elementwise_dense_output_kernel_</a>(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pta</a></td></tr>
+<tr class="separator:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a9f5c60b5d418eded60f0c447ae38c450" name="a9f5c60b5d418eded60f0c447ae38c450"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f5c60b5d418eded60f0c447ae38c450">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;bucketize_sparse_features&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#abb94f2bd00f8ee054a4a1d2417a093d1">fbgemm_gpu::bucketize_sparse_features_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__compute__frequency__sequence_8cu.html b/sparse__compute__frequency__sequence_8cu.html
new file mode 100644
index 000000000..5b0c98b19
--- /dev/null
+++ b/sparse__compute__frequency__sequence_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_compute_frequency_sequence.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_compute_frequency_sequence.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__expand__into__jagged__permute_8cu.html b/sparse__expand__into__jagged__permute_8cu.html
new file mode 100644
index 000000000..1441e8edc
--- /dev/null
+++ b/sparse__expand__into__jagged__permute_8cu.html
@@ -0,0 +1,144 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_expand_into_jagged_permute.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_expand_into_jagged_permute.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga2402de1c0102b21af5f2bd5a50d30309" id="r_ga2402de1c0102b21af5f2bd5a50d30309"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">expand_into_jagged_permute_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">permute</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_size</a>)</td></tr>
+<tr class="separator:ga2402de1c0102b21af5f2bd5a50d30309"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af4f7b3da9350e95957c452753c2569a7" name="af4f7b3da9350e95957c452753c2569a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4f7b3da9350e95957c452753c2569a7">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;expand_into_jagged_permute&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">fbgemm_gpu::expand_into_jagged_permute_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__group__index_8cu.html b/sparse__group__index_8cu.html
new file mode 100644
index 000000000..207a74624
--- /dev/null
+++ b/sparse__group__index_8cu.html
@@ -0,0 +1,149 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_group_index.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_group_index.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="acc7197a16e3ef386f0fd807a0919110b" name="acc7197a16e3ef386f0fd807a0919110b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc7197a16e3ef386f0fd807a0919110b">&#9670;&#160;</a></span>INVOKE_GROUP_INDEX_SELECT_OR_ADD</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_GROUP_INDEX_SELECT_OR_ADD</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">USE_INDEX_SELECT, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">USE_VAR_COLS</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  group_index_select_or_add_2d_kernel&lt;                                   \</div>
+<div class="line">      index_t,                                                           \</div>
+<div class="line">      scalar_t,                                                          \</div>
+<div class="line">      USE_INDEX_SELECT,                                                  \</div>
+<div class="line">      USE_VAR_COLS,                                                      \</div>
+<div class="line">      GROUP_INDEX_SELECT_UNROLL_FACTOR,                                  \</div>
+<div class="line">      GROUP_INDEX_SELECT_COLS_PER_WARP,                                  \</div>
+<div class="line">      GROUP_INDEX_SELECT_LOG_COLS_PER_WARP&gt;                              \</div>
+<div class="line">      &lt;&lt;&lt;grid_size, block_size, 0, at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(  \</div>
+<div class="line">          input_ptrs,                                                    \</div>
+<div class="line">          output_ptrs,                                                   \</div>
+<div class="line">          indices_ptrs,                                                  \</div>
+<div class="line">          warp_offsets_group,                                            \</div>
+<div class="line">          num_cols_group,                                                \</div>
+<div class="line">          num_work_rows,                                                 \</div>
+<div class="line">          group_size)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__index__add_8cu.html b/sparse__index__add_8cu.html
new file mode 100644
index 000000000..fd094259a
--- /dev/null
+++ b/sparse__index__add_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_index_add.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_index_add.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__index__select_8cu.html b/sparse__index__select_8cu.html
new file mode 100644
index 000000000..8093a52b1
--- /dev/null
+++ b/sparse__index__select_8cu.html
@@ -0,0 +1,158 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_index_select.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_index_select.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791" id="r_ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791">__launch_bounds__</a> (kMaxThreads) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">jagged_jagged_elementwise_dense_output_kernel_</a>(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pta</a></td></tr>
+<tr class="separator:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a501f87ecefcbe28091d9a1c48499d3f6" name="a501f87ecefcbe28091d9a1c48499d3f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a501f87ecefcbe28091d9a1c48499d3f6">&#9670;&#160;</a></span>LAUNCH_INDEX_SELECT</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define LAUNCH_INDEX_SELECT</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INDICES_SORTED</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_DSA_KERNEL_LAUNCH(                                                    \</div>
+<div class="line">      (index_select_2d_kernel&lt;                                                \</div>
+<div class="line">          index_t,                                                            \</div>
+<div class="line">          scalar_t,                                                           \</div>
+<div class="line">          UNROLL_FACTOR,                                                      \</div>
+<div class="line">          INDICES_SORTED&gt;),                                                   \</div>
+<div class="line">      <a class="code hl_function" href="sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369">cuda_calc_xblock_count</a>(N, 1),                                           \</div>
+<div class="line">      std::min(div_round_up(<a class="code hl_variable" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, UNROLL_FACTOR), kMaxThreads),                  \</div>
+<div class="line">      0,                                                                      \</div>
+<div class="line">      at::cuda::getCurrentCUDAStream(),                                       \</div>
+<div class="line">      input_reshaped.packed_accessor64&lt;scalar_t, 2, at::RestrictPtrTraits&gt;(), \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>.packed_accessor64&lt;index_t, 1, at::RestrictPtrTraits&gt;(),         \</div>
+<div class="line">      INDICES_SORTED                                                          \</div>
+<div class="line">          ? orig_indices                                                      \</div>
+<div class="line">                .packed_accessor64&lt;<a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt;()       \</div>
+<div class="line">          : dummy_packed_accessor64&lt;<a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, 1, at::RestrictPtrTraits&gt;(),     \</div>
+<div class="line">      <a class="code hl_variable" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a>.packed_accessor64&lt;scalar_t, 2&gt;());</div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel_8cu_html_ac4ebc0de2e60165af8333b6f4eab3e70"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></div><div class="ttdeci">template int64_t</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel.cu:1241</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_a110a71f81fecd3888738618492db1672"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a110a71f81fecd3888738618492db1672">output</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const int32_t const bool pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; output</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:128</div></div>
+<div class="ttc" id="agen__batch__index__select__dim0__forward__kernel__small_8cu_html_acbf20500022fb5f972956bea423a05ff"><div class="ttname"><a href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int32_t, 1, at::RestrictPtrTraits &gt; FixedDivisor const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; indices</div><div class="ttdef"><b>Definition</b> gen_batch_index_select_dim0_forward_kernel_small.cu:123</div></div>
+<div class="ttc" id="agen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu_html_a057f5488fcdaf454d09c4f1b25374ac9"><div class="ttname"><a href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a></div><div class="ttdeci">template const pta::PackedTensorAccessor64&lt; uint8_t, 1, at::RestrictPtrTraits &gt; const pta::PackedTensorAccessor32&lt; int64_t, 1, at::RestrictPtrTraits &gt; int64_t D</div><div class="ttdef"><b>Definition</b> gen_embedding_forward_dense_unweighted_nobag_kernel_small.cu:101</div></div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a2eba06f69b5b34fe6ca0eafb0240d369"><div class="ttname"><a href="sparse__ops__utils_8h.html#a2eba06f69b5b34fe6ca0eafb0240d369">cuda_calc_xblock_count</a></div><div class="ttdeci">constexpr uint32_t cuda_calc_xblock_count(Integer1 num_items, Integer2 threads_per_block)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:353</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__invert__permute_8cu.html b/sparse__invert__permute_8cu.html
new file mode 100644
index 000000000..3883b1da3
--- /dev/null
+++ b/sparse__invert__permute_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_invert_permute.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_invert_permute.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a472cc598c3ed7832c2866f8aaed5fdc8" name="a472cc598c3ed7832c2866f8aaed5fdc8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a472cc598c3ed7832c2866f8aaed5fdc8">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;invert_permute&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::invert_permute_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops_2common_8cuh.html b/sparse__ops_2common_8cuh.html
new file mode 100644
index 000000000..51d114276
--- /dev/null
+++ b/sparse__ops_2common_8cuh.html
@@ -0,0 +1,147 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/common.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8cuh.html">fbgemm_gpu/sparse_ops.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/Dispatch.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Exceptions.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDADeviceAssertion.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDADeviceAssertionHost.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a9e7ecd25c1168b19568b2ba40a731c39" name="a9e7ecd25c1168b19568b2ba40a731c39"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e7ecd25c1168b19568b2ba40a731c39">&#9670;&#160;</a></span>LDG</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define LDG</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ptr</span></td><td>)</td>
+          <td>&#160;&#160;&#160;(__ldg(ptr))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops_8cuh.html b/sparse__ops_8cuh.html
new file mode 100644
index 000000000..517811c29
--- /dev/null
+++ b/sparse__ops_8cuh.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/sparse_ops.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">sparse_ops.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/detail/KernelUtils.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">./cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/block/block_reduce.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">./cub_namespace_postfix.cuh</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops_8h.html b/sparse__ops_8h.html
new file mode 100644
index 000000000..fc067ccb8
--- /dev/null
+++ b/sparse__ops_8h.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/sparse_ops.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_ops.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga2402de1c0102b21af5f2bd5a50d30309" id="r_ga2402de1c0102b21af5f2bd5a50d30309"><td class="memItemLeft" align="right" valign="top">at::Tensor&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cuda.html#ga2402de1c0102b21af5f2bd5a50d30309">expand_into_jagged_permute_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a313d400789ec7e8bf0702c1d06339394">permute</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a88aea1b3f2194509bb8bb7105e0d6553">input_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a72822c0cc98165904fdc0110344ecdd5">output_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_size</a>)</td></tr>
+<tr class="separator:ga2402de1c0102b21af5f2bd5a50d30309"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga201bb2241fc9d582d6c0fe968b0e71ca" id="r_ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">histogram_binning_calibration_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lower_bound</a>=0.0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">upper_bound</a>=1.0, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaef2a0a8c27e3b8b2d72be5c95ba7539e" id="r_gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">generic_histogram_binning_calibration_by_feature_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_value</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017">num_segments</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970">bin_boundaries</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops__cpu_8cpp.html b/sparse__ops__cpu_8cpp.html
new file mode 100644
index 000000000..9a19f0917
--- /dev/null
+++ b/sparse__ops__cpu_8cpp.html
@@ -0,0 +1,263 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_ops_cpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_ops_cpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;algorithm&gt;</code><br />
+<code>#include &lt;cmath&gt;</code><br />
+<code>#include &lt;functional&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/TypeDefault.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;ATen/Parallel.h&quot;</code><br />
+<code>#include &lt;ATen/core/dispatch/Dispatcher.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &quot;c10/util/MaybeOwned.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a96db75aa5b2617976c2937ab051b737e" id="r_a96db75aa5b2617976c2937ab051b737e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a96db75aa5b2617976c2937ab051b737e">batched_unary_embeddings_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#ab1426ad1956909abff1b26d04575767a">weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#a114a2ddecfbdbb209bc791977fcb1c0e">table_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>)</td></tr>
+<tr class="separator:a96db75aa5b2617976c2937ab051b737e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga201bb2241fc9d582d6c0fe968b0e71ca" id="r_ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#ga201bb2241fc9d582d6c0fe968b0e71ca">histogram_binning_calibration_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lower_bound</a>=0.0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">upper_bound</a>=1.0, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:ga201bb2241fc9d582d6c0fe968b0e71ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaef2a0a8c27e3b8b2d72be5c95ba7539e" id="r_gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; at::Tensor, at::Tensor &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__sparse-data-cpu.html#gaef2a0a8c27e3b8b2d72be5c95ba7539e">generic_histogram_binning_calibration_by_feature_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">logit</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_value</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">segment_lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a13adcdfa105d3fe5d68bfeae4df5f017">num_segments</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_examples</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bin_num_positives</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Tensor &amp;<a class="el" href="namespacefbgemm__gpu.html#a7d3b870a22caa3968ca55fb89420e970">bin_boundaries</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">positive_weight</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="namespacefbgemm__gpu.html#a5306cfe92409d5d6525baade1714a78a">bin_ctr_in_use_after</a>=0, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> <a class="el" href="namespacefbgemm__gpu.html#a505eb55e26cb1a63decb22880c93b9fd">bin_ctr_weight_value</a>=1.0)</td></tr>
+<tr class="separator:gaef2a0a8c27e3b8b2d72be5c95ba7539e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a49cb5dd543cc63e932f458e1c79c0d00" id="r_a49cb5dd543cc63e932f458e1c79c0d00"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a49cb5dd543cc63e932f458e1c79c0d00">pack_segments_forward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">t_in</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a49cb5dd543cc63e932f458e1c79c0d00"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a51f0921a8e934c6c4d0fca5ebb5d8338" id="r_a51f0921a8e934c6c4d0fca5ebb5d8338"><td class="memItemLeft" align="right" valign="top"><a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a51f0921a8e934c6c4d0fca5ebb5d8338">pack_segments_backward_cpu</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_length</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a51f0921a8e934c6c4d0fca5ebb5d8338"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a89761ba0ed893bf88bdfdd1f6d15bc65" name="a89761ba0ed893bf88bdfdd1f6d15bc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89761ba0ed893bf88bdfdd1f6d15bc65">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Autograd</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0fdef89a7a61f1f510ed4bb5f6d5398" name="af0fdef89a7a61f1f510ed4bb5f6d5398"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0fdef89a7a61f1f510ed4bb5f6d5398">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">AutogradCPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26b96ceaa00c9be7dbba99ca0b772a58" name="a26b96ceaa00c9be7dbba99ca0b772a58"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26b96ceaa00c9be7dbba99ca0b772a58">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CPU</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops__gpu_8cpp.html b/sparse__ops__gpu_8cpp.html
new file mode 100644
index 000000000..2a820b74e
--- /dev/null
+++ b/sparse__ops__gpu_8cpp.html
@@ -0,0 +1,222 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_ops_gpu.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_ops_gpu.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;ATen/ops/tensor.h&quot;</code><br />
+<code>#include &quot;c10/core/SymInt.h&quot;</code><br />
+<code>#include &quot;c10/core/TensorOptions.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &lt;torch/script.h&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+<code>#include &lt;stdexcept&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fd406590cd83f4dec4a63c7c1b9ce78" name="a8fd406590cd83f4dec4a63c7c1b9ce78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fd406590cd83f4dec4a63c7c1b9ce78">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">AutogradCUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a257a9d9e0a71b3a1299af6ef9c6c3a78" name="a257a9d9e0a71b3a1299af6ef9c6c3a78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a257a9d9e0a71b3a1299af6ef9c6c3a78">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops__meta_8cpp.html b/sparse__ops__meta_8cpp.html
new file mode 100644
index 000000000..c5670d976
--- /dev/null
+++ b/sparse__ops__meta_8cpp.html
@@ -0,0 +1,145 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_ops_meta.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_ops_meta.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;torch/csrc/autograd/custom_function.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &quot;c10/core/SymIntArrayRef.h&quot;</code><br />
+<code>#include &quot;c10/util/DimVector.h&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops_8h.html">fbgemm_gpu/sparse_ops.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Meta</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops__utils_8h.html b/sparse__ops__utils_8h.html
new file mode 100644
index 000000000..645114987
--- /dev/null
+++ b/sparse__ops__utils_8h.html
@@ -0,0 +1,1277 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/sparse_ops_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_ops_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;cstdint&gt;</code><br />
+<code>#include &lt;optional&gt;</code><br />
+<code>#include &lt;string&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="struct_stack_array.html">StackArray&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structlog2__calc__.html">log2_calc_&lt; x &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structlog2__calc___3_010_01_4.html">log2_calc_&lt; 0 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structlog2__calc.html">log2_calc&lt; x &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a885f787cafec301665604303ae43a2e3" id="r_a885f787cafec301665604303ae43a2e3"><td class="memTemplParams" colspan="2">template&lt;typename Integer1 , typename Integer2 , std::enable_if_t&lt; std::is_integral&lt; Integer1 &gt;::value, bool &gt;  = true, std::enable_if_t&lt; std::is_integral&lt; Integer2 &gt;::value, bool &gt;  = true&gt; </td></tr>
+<tr class="memitem:a885f787cafec301665604303ae43a2e3"><td class="memTemplItemLeft" align="right" valign="top">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#a885f787cafec301665604303ae43a2e3">cuda_calc_xblock_count_base</a> (Integer1 num_items, Integer2 threads_per_block)</td></tr>
+<tr class="separator:a885f787cafec301665604303ae43a2e3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab702f2479ba0bedf91c18e0b644b210a" id="r_ab702f2479ba0bedf91c18e0b644b210a"><td class="memTemplParams" colspan="2">template&lt;typename Integer1 , typename Integer2 , std::enable_if_t&lt; std::is_integral&lt; Integer1 &gt;::value, bool &gt;  = true, std::enable_if_t&lt; std::is_integral&lt; Integer2 &gt;::value, bool &gt;  = true&gt; </td></tr>
+<tr class="memitem:ab702f2479ba0bedf91c18e0b644b210a"><td class="memTemplItemLeft" align="right" valign="top">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="#ab702f2479ba0bedf91c18e0b644b210a">cuda_calc_block_count</a> (Integer1 num_items, Integer2 threads_per_block)</td></tr>
+<tr class="separator:ab702f2479ba0bedf91c18e0b644b210a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ae80e8b33bdef7d2849eb3d516ff67d1b" name="ae80e8b33bdef7d2849eb3d516ff67d1b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae80e8b33bdef7d2849eb3d516ff67d1b">&#9670;&#160;</a></span>DISPATCH_TO_ALL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_ALL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)&#160;&#160;&#160;  m.impl(name, torch::dispatch(c10::DispatchKey::CatchAll, TORCH_FN(function)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab6390a9590ead03a896aae2b93a96ed" name="aab6390a9590ead03a896aae2b93a96ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab6390a9590ead03a896aae2b93a96ed">&#9670;&#160;</a></span>DISPATCH_TO_AUTOGRAD</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_AUTOGRAD</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)&#160;&#160;&#160;  m.impl(name, torch::dispatch(c10::DispatchKey::Autograd, TORCH_FN(function)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adb242971e11b66b1f8f58c361e44b8e7" name="adb242971e11b66b1f8f58c361e44b8e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb242971e11b66b1f8f58c361e44b8e7">&#9670;&#160;</a></span>DISPATCH_TO_AUTOGRAD_CUDA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_AUTOGRAD_CUDA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  m.impl(                                         \</div>
+<div class="line">      name,                                       \</div>
+<div class="line">      torch::dispatch(c10::DispatchKey::AutogradCUDA, TORCH_FN(function)))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a8ed65710de63bd56275d2ceded5d59b4" name="a8ed65710de63bd56275d2ceded5d59b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ed65710de63bd56275d2ceded5d59b4">&#9670;&#160;</a></span>DISPATCH_TO_AUTOGRAD_META</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_AUTOGRAD_META</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  m.impl(                                         \</div>
+<div class="line">      name,                                       \</div>
+<div class="line">      torch::dispatch(c10::DispatchKey::AutogradMETA, TORCH_FN(function)))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="af5cf39897136f04c6f2ac5f3544c49c3" name="af5cf39897136f04c6f2ac5f3544c49c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5cf39897136f04c6f2ac5f3544c49c3">&#9670;&#160;</a></span>DISPATCH_TO_CPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_CPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)&#160;&#160;&#160;  m.impl(name, torch::dispatch(c10::DispatchKey::CPU, TORCH_FN(function)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a06de50f3ede518ff59612c9ada5a85c8" name="a06de50f3ede518ff59612c9ada5a85c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06de50f3ede518ff59612c9ada5a85c8">&#9670;&#160;</a></span>DISPATCH_TO_CUDA</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_CUDA</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)&#160;&#160;&#160;  m.impl(name, torch::dispatch(c10::DispatchKey::CUDA, TORCH_FN(function)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa751218a0e9119ad6fa4d6d4df63fda5" name="aa751218a0e9119ad6fa4d6d4df63fda5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa751218a0e9119ad6fa4d6d4df63fda5">&#9670;&#160;</a></span>DISPATCH_TO_META</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DISPATCH_TO_META</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">name, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">function</span>&#160;)&#160;&#160;&#160;  m.impl(name, torch::dispatch(c10::DispatchKey::Meta, TORCH_FN(function)))</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f3cc6f3a1a83750715b4ddcb228ca8b" name="a8f3cc6f3a1a83750715b4ddcb228ca8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f3cc6f3a1a83750715b4ddcb228ca8b">&#9670;&#160;</a></span>JAGGED_TENSOR_DISPATCH_DIMS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define JAGGED_TENSOR_DISPATCH_DIMS</td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  AT_DISPATCH_INDEX_TYPES(x_offsets[0].scalar_type(), <span class="stringliteral">&quot;jagged_indices&quot;</span>, [=] { \</div>
+<div class="line">    switch (num_jagged_dim) {                                                 \</div>
+<div class="line">      <span class="keywordflow">case</span> 1:                                                                 \</div>
+<div class="line">        INVOKE_KERNEL_WITH_DIM(1);                                            \</div>
+<div class="line">        <span class="keywordflow">break</span>;                                                                \</div>
+<div class="line">      <span class="keywordflow">case</span> 2:                                                                 \</div>
+<div class="line">        INVOKE_KERNEL_WITH_DIM(2);                                            \</div>
+<div class="line">        <span class="keywordflow">break</span>;                                                                \</div>
+<div class="line">      <span class="keywordflow">case</span> 3:                                                                 \</div>
+<div class="line">        INVOKE_KERNEL_WITH_DIM(3);                                            \</div>
+<div class="line">        <span class="keywordflow">break</span>;                                                                \</div>
+<div class="line">      <span class="keywordflow">case</span> 4:                                                                 \</div>
+<div class="line">        INVOKE_KERNEL_WITH_DIM(4);                                            \</div>
+<div class="line">        <span class="keywordflow">break</span>;                                                                \</div>
+<div class="line">      <span class="keywordflow">case</span> 5:                                                                 \</div>
+<div class="line">        INVOKE_KERNEL_WITH_DIM(5);                                            \</div>
+<div class="line">        <span class="keywordflow">break</span>;                                                                \</div>
+<div class="line">      <span class="keywordflow">default</span>:                                                                \</div>
+<div class="line">        TORCH_CHECK(                                                          \</div>
+<div class="line">            <span class="keyword">false</span>, <span class="stringliteral">&quot;unsupported number of jagged dim &quot;</span>, num_jagged_dim);      \</div>
+<div class="line">    }                                                                         \</div>
+<div class="line">  });</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a333341c9590667c47753510e0da7b6e3" name="a333341c9590667c47753510e0da7b6e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a333341c9590667c47753510e0da7b6e3">&#9670;&#160;</a></span>TENSOR_CONTIGUOUS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_CONTIGUOUS</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td>&#160;&#160;&#160;  TORCH_CHECK((x).is_contiguous(), #x &quot; must be contiguous&quot;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0378cd5f9e716f13079b83a9b9805691" name="a0378cd5f9e716f13079b83a9b9805691"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0378cd5f9e716f13079b83a9b9805691">&#9670;&#160;</a></span>TENSOR_CONTIGUOUS_AND_ON_CPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_CONTIGUOUS_AND_ON_CPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="#a5d19d4051835acd2c6d83eb637341010">TENSOR_ON_CPU</a>(x);                     \</div>
+<div class="line">  TENSOR_CONTIGUOUS(x)</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a5d19d4051835acd2c6d83eb637341010"><div class="ttname"><a href="#a5d19d4051835acd2c6d83eb637341010">TENSOR_ON_CPU</a></div><div class="ttdeci">#define TENSOR_ON_CPU(x)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:124</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a350ade6aa989687c2ca8ced000e200ff" name="a350ade6aa989687c2ca8ced000e200ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a350ade6aa989687c2ca8ced000e200ff">&#9670;&#160;</a></span>TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_CONTIGUOUS_AND_ON_CUDA_GPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <a class="code hl_define" href="#ac6089c2908cb1ae6367af5cf7bbea30d">TENSOR_ON_CUDA_GPU</a>(x);                     \</div>
+<div class="line">  TENSOR_CONTIGUOUS(x)</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_ac6089c2908cb1ae6367af5cf7bbea30d"><div class="ttname"><a href="#ac6089c2908cb1ae6367af5cf7bbea30d">TENSOR_ON_CUDA_GPU</a></div><div class="ttdeci">#define TENSOR_ON_CUDA_GPU(x)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:136</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a73ab1987fec37ac982ae1ed77be0e3ea" name="a73ab1987fec37ac982ae1ed77be0e3ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73ab1987fec37ac982ae1ed77be0e3ea">&#9670;&#160;</a></span>TENSOR_EMPTY_OR_ON_CPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_EMPTY_OR_ON_CPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                         \</div>
+<div class="line">      <a class="code hl_function" href="#a6328f240dd58293d0349471dca28797e">torch_tensor_empty_or_on_cpu_check</a>(x),                           \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be empty or a CPU tensor; it is currently on device &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x))</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a535403fdc5c523b45f0d56d657e17f7b"><div class="ttname"><a href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a></div><div class="ttdeci">std::string torch_tensor_device_name(const at::Tensor &amp;ten)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:38</div></div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a6328f240dd58293d0349471dca28797e"><div class="ttname"><a href="#a6328f240dd58293d0349471dca28797e">torch_tensor_empty_or_on_cpu_check</a></div><div class="ttdeci">bool torch_tensor_empty_or_on_cpu_check(const at::Tensor &amp;ten)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:90</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="aff83e4ada08cf70146ffc4ac2009aa9a" name="aff83e4ada08cf70146ffc4ac2009aa9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff83e4ada08cf70146ffc4ac2009aa9a">&#9670;&#160;</a></span>TENSOR_EMPTY_OR_ON_CUDA_GPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_EMPTY_OR_ON_CUDA_GPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                          \</div>
+<div class="line">      <a class="code hl_function" href="#abb9778e9fb75a70593c27e53dca268cd">torch_tensor_empty_or_on_cuda_gpu_check</a>(x),                       \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be empty or a CUDA tensor; it is currently on device &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x))</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_abb9778e9fb75a70593c27e53dca268cd"><div class="ttname"><a href="#abb9778e9fb75a70593c27e53dca268cd">torch_tensor_empty_or_on_cuda_gpu_check</a></div><div class="ttdeci">bool torch_tensor_empty_or_on_cuda_gpu_check(const at::Tensor &amp;ten)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:80</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a485f848acf189619cb61a0ae7534eaa1" name="a485f848acf189619cb61a0ae7534eaa1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a485f848acf189619cb61a0ae7534eaa1">&#9670;&#160;</a></span>TENSOR_NDIM_EQUALS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_NDIM_EQUALS</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ten, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">dims</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                             \</div>
+<div class="line">      (ten).ndimension() == (dims),        \</div>
+<div class="line">      <span class="stringliteral">&quot;Tensor &#39;&quot;</span> #ten <span class="stringliteral">&quot;&#39; must have &quot;</span> #dims \</div>
+<div class="line">      <span class="stringliteral">&quot; dimension(s). &quot;</span>                    \</div>
+<div class="line">      <span class="stringliteral">&quot;Found &quot;</span>,                            \</div>
+<div class="line">      (ten).ndimension())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="acfab048550cb0518bdb1ac267ef1e7ba" name="acfab048550cb0518bdb1ac267ef1e7ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acfab048550cb0518bdb1ac267ef1e7ba">&#9670;&#160;</a></span>TENSOR_NDIM_EXCEEDS</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_NDIM_EXCEEDS</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ten, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">dims</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                       \</div>
+<div class="line">      (ten).dim() &gt; (dims),                          \</div>
+<div class="line">      <span class="stringliteral">&quot;Tensor &#39;&quot;</span> #ten <span class="stringliteral">&quot;&#39; must have more than &quot;</span> #dims \</div>
+<div class="line">      <span class="stringliteral">&quot; dimension(s). &quot;</span>                              \</div>
+<div class="line">      <span class="stringliteral">&quot;Found &quot;</span>,                                      \</div>
+<div class="line">      (ten).ndimension())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="abd9e69a82885e6e361275a0b08ebe565" name="abd9e69a82885e6e361275a0b08ebe565"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abd9e69a82885e6e361275a0b08ebe565">&#9670;&#160;</a></span>TENSOR_NDIM_IS_GE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_NDIM_IS_GE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ten, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">dims</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                               \</div>
+<div class="line">      (ten).dim() &gt;= (dims),                 \</div>
+<div class="line">      <span class="stringliteral">&quot;Tensor &#39;&quot;</span> #ten <span class="stringliteral">&quot;&#39; must have &gt;=&quot;</span> #dims \</div>
+<div class="line">      <span class="stringliteral">&quot; dimension(s). &quot;</span>                      \</div>
+<div class="line">      <span class="stringliteral">&quot;Found &quot;</span>,                              \</div>
+<div class="line">      (ten).ndimension())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a5d19d4051835acd2c6d83eb637341010" name="a5d19d4051835acd2c6d83eb637341010"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5d19d4051835acd2c6d83eb637341010">&#9670;&#160;</a></span>TENSOR_ON_CPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_ON_CPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                \</div>
+<div class="line">      <a class="code hl_function" href="#ad971d56f6b82b6c62a2d6fed276b0463">torch_tensor_on_cpu_check</a>(x),                           \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be a CPU tensor; it is currently on device &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x))</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_ad971d56f6b82b6c62a2d6fed276b0463"><div class="ttname"><a href="#ad971d56f6b82b6c62a2d6fed276b0463">torch_tensor_on_cpu_check</a></div><div class="ttdeci">bool torch_tensor_on_cpu_check(const at::Tensor &amp;ten)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:16</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="ac6089c2908cb1ae6367af5cf7bbea30d" name="ac6089c2908cb1ae6367af5cf7bbea30d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6089c2908cb1ae6367af5cf7bbea30d">&#9670;&#160;</a></span>TENSOR_ON_CUDA_GPU</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_ON_CUDA_GPU</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                 \</div>
+<div class="line">      <a class="code hl_function" href="#a5568d44e6066339da1326798f9637b16">torch_tensor_on_cuda_gpu_check</a>(x),                       \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be a CUDA tensor; it is currently on device &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x))</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a5568d44e6066339da1326798f9637b16"><div class="ttname"><a href="#a5568d44e6066339da1326798f9637b16">torch_tensor_on_cuda_gpu_check</a></div><div class="ttdeci">bool torch_tensor_on_cuda_gpu_check(const at::Tensor &amp;ten)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:71</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a003b5640cfa59fe8f5da9b1c9fcb8f26" name="a003b5640cfa59fe8f5da9b1c9fcb8f26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a003b5640cfa59fe8f5da9b1c9fcb8f26">&#9670;&#160;</a></span>TENSOR_TYPE_MUST_BE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSOR_TYPE_MUST_BE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ten, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">typ</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                             \</div>
+<div class="line">      (ten).scalar_type() == typ,                                          \</div>
+<div class="line">      <span class="stringliteral">&quot;Tensor &#39;&quot;</span> #ten <span class="stringliteral">&quot;&#39; must have scalar type &quot;</span> #typ <span class="stringliteral">&quot; but it had type &quot;</span>, \</div>
+<div class="line">      (ten).dtype().name())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a3df91ae56fe10d1c002bed63e5b78d1b" name="a3df91ae56fe10d1c002bed63e5b78d1b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3df91ae56fe10d1c002bed63e5b78d1b">&#9670;&#160;</a></span>TENSORS_EMPTY_OR_ON_SAME_DEVICE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSORS_EMPTY_OR_ON_SAME_DEVICE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">y</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                          \</div>
+<div class="line">      <a class="code hl_function" href="#a5683dd4c2143c3c0ba0eeb80fd5223f0">torch_tensor_on_same_device_check</a>(x, y) || (x.numel() == 0),      \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be empty or a CUDA tensor; it is currently on device &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x))</div>
+<div class="ttc" id="asparse__ops__utils_8h_html_a5683dd4c2143c3c0ba0eeb80fd5223f0"><div class="ttname"><a href="#a5683dd4c2143c3c0ba0eeb80fd5223f0">torch_tensor_on_same_device_check</a></div><div class="ttdeci">bool torch_tensor_on_same_device_check(const at::Tensor &amp;ten1, const at::Tensor &amp;ten2)</div><div class="ttdef"><b>Definition</b> sparse_ops_utils.h:51</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a9be1e573e7d3e35f3db03210e2624e61" name="a9be1e573e7d3e35f3db03210e2624e61"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9be1e573e7d3e35f3db03210e2624e61">&#9670;&#160;</a></span>TENSORS_HAVE_SAME_NUMEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSORS_HAVE_SAME_NUMEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">y</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                         \</div>
+<div class="line">      (x).numel() == (y).numel(),                                      \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must have the same number of elements as &quot;</span> #y <span class="stringliteral">&quot; They had &quot;</span>, \</div>
+<div class="line">      (x).numel(),                                                     \</div>
+<div class="line">      <span class="stringliteral">&quot; and &quot;</span>,                                                         \</div>
+<div class="line">      (y).numel())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a97687675a3398d3168fe8f07a1b4db87" name="a97687675a3398d3168fe8f07a1b4db87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97687675a3398d3168fe8f07a1b4db87">&#9670;&#160;</a></span>TENSORS_HAVE_SAME_TYPE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSORS_HAVE_SAME_TYPE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">y</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                             \</div>
+<div class="line">      (x).dtype() == (y).dtype(),                          \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must have the same type as &quot;</span> #y <span class="stringliteral">&quot; types were &quot;</span>, \</div>
+<div class="line">      (x).dtype().name(),                                  \</div>
+<div class="line">      <span class="stringliteral">&quot; and &quot;</span>,                                             \</div>
+<div class="line">      (y).dtype().name())</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="a4724e1d67266b6998b8fe4ef1ec743d9" name="a4724e1d67266b6998b8fe4ef1ec743d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4724e1d67266b6998b8fe4ef1ec743d9">&#9670;&#160;</a></span>TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSORS_ON_SAME_CUDA_GPU_IF_NOT_OPTIONAL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname"><em>...</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">do</span> {                                                                       \</div>
+<div class="line">    <span class="keyword">const</span> <span class="keyword">auto</span> tensors_on_same_gpu =                                         \</div>
+<div class="line">        tensor_on_same_gpu_if_not_optional_check(#__VA_ARGS__, __VA_ARGS__); \</div>
+<div class="line">    TORCH_CHECK(tensors_on_same_gpu.empty(), tensors_on_same_gpu);           \</div>
+<div class="line">  } <span class="keywordflow">while</span> (<span class="keyword">false</span>)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<a id="aa6ef8e13e3280066cc5f4f0970d3e7a6" name="aa6ef8e13e3280066cc5f4f0970d3e7a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6ef8e13e3280066cc5f4f0970d3e7a6">&#9670;&#160;</a></span>TENSORS_ON_SAME_DEVICE</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define TENSORS_ON_SAME_DEVICE</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">x, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">y</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  TORCH_CHECK(                                                             \</div>
+<div class="line">      <a class="code hl_function" href="#a5683dd4c2143c3c0ba0eeb80fd5223f0">torch_tensor_on_same_device_check</a>(x, y),                             \</div>
+<div class="line">      #x <span class="stringliteral">&quot; must be on the same device as &quot;</span> #y <span class="stringliteral">&quot;! &quot;</span> #x <span class="stringliteral">&quot; is currently on &quot;</span>, \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(x),                                         \</div>
+<div class="line">      #y <span class="stringliteral">&quot; is currently on &quot;</span>,                                              \</div>
+<div class="line">      <a class="code hl_function" href="#a535403fdc5c523b45f0d56d657e17f7b">torch_tensor_device_name</a>(y))</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a519154f3b89148b1b70e45d8c340ff81" name="a519154f3b89148b1b70e45d8c340ff81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a519154f3b89148b1b70e45d8c340ff81">&#9670;&#160;</a></span>binary_search_range_cpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename scalar_t &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void binary_search_range_cpu </td>
+          <td>(</td>
+          <td class="paramtype">int *</td>          <td class="paramname"><span class="paramname"><em>found</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const scalar_t *</td>          <td class="paramname"><span class="paramname"><em>arr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const scalar_t</td>          <td class="paramname"><span class="paramname"><em>target</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const int</td>          <td class="paramname"><span class="paramname"><em>num_entries</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab702f2479ba0bedf91c18e0b644b210a" name="ab702f2479ba0bedf91c18e0b644b210a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab702f2479ba0bedf91c18e0b644b210a">&#9670;&#160;</a></span>cuda_calc_block_count()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Integer1 , typename Integer2 , std::enable_if_t&lt; std::is_integral&lt; Integer1 &gt;::value, bool &gt;  = true, std::enable_if_t&lt; std::is_integral&lt; Integer2 &gt;::value, bool &gt;  = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> cuda_calc_block_count </td>
+          <td>(</td>
+          <td class="paramtype">Integer1</td>          <td class="paramname"><span class="paramname"><em>num_items</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Integer2</td>          <td class="paramname"><span class="paramname"><em>threads_per_block</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Determine an appropriate CUDA block count.</p>
+<p>See <a class="el" href="#a885f787cafec301665604303ae43a2e3">cuda_calc_xblock_count_base()</a> for details. </p>
+
+</div>
+</div>
+<a id="a2eba06f69b5b34fe6ca0eafb0240d369" name="a2eba06f69b5b34fe6ca0eafb0240d369"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2eba06f69b5b34fe6ca0eafb0240d369">&#9670;&#160;</a></span>cuda_calc_xblock_count()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Integer1 , typename Integer2 , std::enable_if_t&lt; std::is_integral&lt; Integer1 &gt;::value &amp;&amp;std::is_signed&lt; Integer2 &gt;::value, bool &gt;  = true, std::enable_if_t&lt; std::is_integral&lt; Integer2 &gt;::value &amp;&amp;std::is_unsigned&lt; Integer2 &gt;::value, bool &gt;  = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> cuda_calc_xblock_count </td>
+          <td>(</td>
+          <td class="paramtype">Integer1</td>          <td class="paramname"><span class="paramname"><em>num_items</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Integer2</td>          <td class="paramname"><span class="paramname"><em>threads_per_block</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a885f787cafec301665604303ae43a2e3" name="a885f787cafec301665604303ae43a2e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a885f787cafec301665604303ae43a2e3">&#9670;&#160;</a></span>cuda_calc_xblock_count_base()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Integer1 , typename Integer2 , std::enable_if_t&lt; std::is_integral&lt; Integer1 &gt;::value, bool &gt;  = true, std::enable_if_t&lt; std::is_integral&lt; Integer2 &gt;::value, bool &gt;  = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> cuda_calc_xblock_count_base </td>
+          <td>(</td>
+          <td class="paramtype">Integer1</td>          <td class="paramname"><span class="paramname"><em>num_items</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Integer2</td>          <td class="paramname"><span class="paramname"><em>threads_per_block</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Determine an appropriate CUDA block count along the x axis</p>
+<p>When launching CUDA kernels the number of blocks B is often calculated w.r.t. the number of threads T and items to be processed N as B=(N+T-1)/T - which is integer division rounding up. This function abstracts that calculation, performs it in an overflow-safe manner, and limits the return value appropriately.</p>
+<p>This is a general function for all integral data types. The goal of this set of functions is to ensure correct calculations across a variety of data types without forcing the programmer to cast to an appropriate type (which is dangerous because we don't have conversion warnings enabled). The values of the variables can then be checked for correctness at run-time. Specialized functions below handle various combinations of signed and unsigned inputs. This system prevents "pointless comparison
+against zero" warnings from the compiler for unsigned types (simpler ways of suppressing this warning didn't work) while maintaining the various warnings.</p>
+<p>Function is designed to facilitate run-time value checking. </p>
+
+</div>
+</div>
+<a id="a672c3da6666124b2950b2eef43587bc6" name="a672c3da6666124b2950b2eef43587bc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a672c3da6666124b2950b2eef43587bc6">&#9670;&#160;</a></span>get_device_index_from_tensor() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; get_device_index_from_tensor </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af97638412af3aea185ac327ebe398542" name="af97638412af3aea185ac327ebe398542"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af97638412af3aea185ac327ebe398542">&#9670;&#160;</a></span>get_device_index_from_tensor() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::optional&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; get_device_index_from_tensor </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a8411338d3eef3620c7f5be3803c7cd" name="a5a8411338d3eef3620c7f5be3803c7cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a8411338d3eef3620c7f5be3803c7cd">&#9670;&#160;</a></span>tensor_on_same_gpu_if_not_optional_check()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename... Tensors&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">std::string tensor_on_same_gpu_if_not_optional_check </td>
+          <td>(</td>
+          <td class="paramtype">const std::string &amp;</td>          <td class="paramname"><span class="paramname"><em>var_names_str</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const Tensors &amp;...</td>          <td class="paramname"><span class="paramname"><em>tensors</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a535403fdc5c523b45f0d56d657e17f7b" name="a535403fdc5c523b45f0d56d657e17f7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a535403fdc5c523b45f0d56d657e17f7b">&#9670;&#160;</a></span>torch_tensor_device_name() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::string torch_tensor_device_name </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a319c921d3abe8bdb14140b45afe9afdb" name="a319c921d3abe8bdb14140b45afe9afdb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a319c921d3abe8bdb14140b45afe9afdb">&#9670;&#160;</a></span>torch_tensor_device_name() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::string torch_tensor_device_name </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6328f240dd58293d0349471dca28797e" name="a6328f240dd58293d0349471dca28797e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6328f240dd58293d0349471dca28797e">&#9670;&#160;</a></span>torch_tensor_empty_or_on_cpu_check() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_empty_or_on_cpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc4520e447e8ad48a316af75860d84ae" name="afc4520e447e8ad48a316af75860d84ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc4520e447e8ad48a316af75860d84ae">&#9670;&#160;</a></span>torch_tensor_empty_or_on_cpu_check() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_empty_or_on_cpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb9778e9fb75a70593c27e53dca268cd" name="abb9778e9fb75a70593c27e53dca268cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb9778e9fb75a70593c27e53dca268cd">&#9670;&#160;</a></span>torch_tensor_empty_or_on_cuda_gpu_check() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_empty_or_on_cuda_gpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac863615b6eba91282fcf07b5e9a5460" name="aac863615b6eba91282fcf07b5e9a5460"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac863615b6eba91282fcf07b5e9a5460">&#9670;&#160;</a></span>torch_tensor_empty_or_on_cuda_gpu_check() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_empty_or_on_cuda_gpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad971d56f6b82b6c62a2d6fed276b0463" name="ad971d56f6b82b6c62a2d6fed276b0463"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad971d56f6b82b6c62a2d6fed276b0463">&#9670;&#160;</a></span>torch_tensor_on_cpu_check() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_cpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af4afd1e331412cf092a70d0fd816aed8" name="af4afd1e331412cf092a70d0fd816aed8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4afd1e331412cf092a70d0fd816aed8">&#9670;&#160;</a></span>torch_tensor_on_cpu_check() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_cpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5568d44e6066339da1326798f9637b16" name="a5568d44e6066339da1326798f9637b16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5568d44e6066339da1326798f9637b16">&#9670;&#160;</a></span>torch_tensor_on_cuda_gpu_check() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_cuda_gpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a99211623695fce2a359b74a5823b58b8" name="a99211623695fce2a359b74a5823b58b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99211623695fce2a359b74a5823b58b8">&#9670;&#160;</a></span>torch_tensor_on_cuda_gpu_check() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_cuda_gpu_check </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5683dd4c2143c3c0ba0eeb80fd5223f0" name="a5683dd4c2143c3c0ba0eeb80fd5223f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5683dd4c2143c3c0ba0eeb80fd5223f0">&#9670;&#160;</a></span>torch_tensor_on_same_device_check() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_same_device_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten2</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac60c66ce5a4058e4906907960f82f1be" name="ac60c66ce5a4058e4906907960f82f1be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac60c66ce5a4058e4906907960f82f1be">&#9670;&#160;</a></span>torch_tensor_on_same_device_check() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_on_same_device_check </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten1</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten2</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab583553d9bf8ca92fadb8a81ffd40cd8" name="ab583553d9bf8ca92fadb8a81ffd40cd8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab583553d9bf8ca92fadb8a81ffd40cd8">&#9670;&#160;</a></span>torch_tensor_undefined() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_undefined </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5e916ca6a05a17d36e5341d929cc18e0" name="a5e916ca6a05a17d36e5341d929cc18e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e916ca6a05a17d36e5341d929cc18e0">&#9670;&#160;</a></span>torch_tensor_undefined() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">bool torch_tensor_undefined </td>
+          <td>(</td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>ten</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="ab6183b92f9eac6ca49e3055d79dfc83d" name="ab6183b92f9eac6ca49e3055d79dfc83d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6183b92f9eac6ca49e3055d79dfc83d">&#9670;&#160;</a></span>kStackArrayMaxDims</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr size_t kStackArrayMaxDims = 5</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__ops__utils__test_8cpp.html b/sparse__ops__utils__test_8cpp.html
new file mode 100644
index 000000000..7ba904f4c
--- /dev/null
+++ b/sparse__ops__utils__test_8cpp.html
@@ -0,0 +1,194 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/test/sparse_ops_utils_test.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html">test</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">sparse_ops_utils_test.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;gmock/gmock.h&gt;</code><br />
+<code>#include &lt;gtest/gtest.h&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;torch/torch.h&gt;</code><br />
+<code>#include &quot;deeplearning/fbgemm/fbgemm_gpu/include/fbgemm_gpu/sparse_ops_utils.h&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="a740d263ecb80b6e7cf28a86f561450b7" name="a740d263ecb80b6e7cf28a86f561450b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a740d263ecb80b6e7cf28a86f561450b7">&#9670;&#160;</a></span>get_valid_cpu_tensor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> get_valid_cpu_tensor </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2d4ac7a4fb22c0789d8510d17f3878db" name="a2d4ac7a4fb22c0789d8510d17f3878db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d4ac7a4fb22c0789d8510d17f3878db">&#9670;&#160;</a></span>TEST() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">sparse_ops_utils_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">cpu_tensors_fail</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adc3b9330a7cac1cf2e07268fe7a6bd17" name="adc3b9330a7cac1cf2e07268fe7a6bd17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc3b9330a7cac1cf2e07268fe7a6bd17">&#9670;&#160;</a></span>TEST() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">sparse_ops_utils_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">gpu_tensors_pass</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae888046a03bb3fe0f87d23c4915f6994" name="ae888046a03bb3fe0f87d23c4915f6994"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae888046a03bb3fe0f87d23c4915f6994">&#9670;&#160;</a></span>TEST() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">sparse_ops_utils_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">optional_tensor_passes</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9011669ae997bae59aa8f141bd794f11" name="a9011669ae997bae59aa8f141bd794f11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9011669ae997bae59aa8f141bd794f11">&#9670;&#160;</a></span>TEST() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">sparse_ops_utils_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">undefined_tensors_do_not_trigger</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__pack__segments__backward_8cu.html b/sparse__pack__segments__backward_8cu.html
new file mode 100644
index 000000000..ecf22383e
--- /dev/null
+++ b/sparse__pack__segments__backward_8cu.html
@@ -0,0 +1,117 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_pack_segments_backward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_pack_segments_backward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:aaded8e25bef3a32580d71dc2ead25f0c" id="r_aaded8e25bef3a32580d71dc2ead25f0c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#aaded8e25bef3a32580d71dc2ead25f0c">pack_segments_backward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="jagged__tensor__ops_2common_8cuh.html#a4f36f56fa6a995a4ad013e16ba311b31">data</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_length</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:aaded8e25bef3a32580d71dc2ead25f0c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__pack__segments__forward_8cu.html b/sparse__pack__segments__forward_8cu.html
new file mode 100644
index 000000000..6c1f81311
--- /dev/null
+++ b/sparse__pack__segments__forward_8cu.html
@@ -0,0 +1,117 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_pack_segments_forward.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_pack_segments_forward.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a4bec138cb5be2583288d026eb4185646" id="r_a4bec138cb5be2583288d026eb4185646"><td class="memItemLeft" align="right" valign="top"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#a4bec138cb5be2583288d026eb4185646">pack_segments_forward_cuda</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">t_in</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#ae2016e9bbb2f470174708fc60cd7592f">Tensor</a> &amp;<a class="el" href="namespacefbgemm__gpu.html#acbebb5d71fe9389f7b919325112c1548">lengths</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_length</a>)</td></tr>
+<tr class="separator:a4bec138cb5be2583288d026eb4185646"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__permute102_8cu.html b/sparse__permute102_8cu.html
new file mode 100644
index 000000000..19fce0ee6
--- /dev/null
+++ b/sparse__permute102_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_permute102.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_permute102.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa5a7770ccd8e2e72012a3035579d2cfc" name="aa5a7770ccd8e2e72012a3035579d2cfc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5a7770ccd8e2e72012a3035579d2cfc">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute102_baddbmm_permute102&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a0c3f53164eb98c0b45b5aaef3e99a172">fbgemm_gpu::permute102_baddbmm_permute102_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__permute__1d_8cu.html b/sparse__permute__1d_8cu.html
new file mode 100644
index 000000000..797c655c7
--- /dev/null
+++ b/sparse__permute__1d_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_permute_1d.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_permute_1d.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aa28c2751b385fa3416aa12a3dd2cb039" name="aa28c2751b385fa3416aa12a3dd2cb039"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa28c2751b385fa3416aa12a3dd2cb039">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_1D_sparse_data&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::permute_1D_sparse_data_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__permute__2d_8cu.html b/sparse__permute__2d_8cu.html
new file mode 100644
index 000000000..07b12e6fb
--- /dev/null
+++ b/sparse__permute__2d_8cu.html
@@ -0,0 +1,197 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_permute_2d.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">sparse_permute_2d.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791" id="r_ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplParams" colspan="2">template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> NUM_JAGGED_DIM, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">F</a> &gt; </td></tr>
+<tr class="memitem:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html#ad21c70bdd84772ee2b9b3950c87e9791">__launch_bounds__</a> (kMaxThreads) <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">jagged_jagged_elementwise_dense_output_kernel_</a>(<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">pta</a></td></tr>
+<tr class="separator:ad21c70bdd84772ee2b9b3950c87e9791"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aab7fc0ba2b46743531f3d2fe4392be84" name="aab7fc0ba2b46743531f3d2fe4392be84"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab7fc0ba2b46743531f3d2fe4392be84">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_2D_sparse_data&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::permute_2D_sparse_data_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab884888820b4be2c942de1bf75211b2b" name="ab884888820b4be2c942de1bf75211b2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab884888820b4be2c942de1bf75211b2b">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_sparse_data&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::permute_2D_sparse_data_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16728339b915be3a73e7bced8598849f" name="a16728339b915be3a73e7bced8598849f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16728339b915be3a73e7bced8598849f">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_sparse_features&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::permute_sparse_features_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__permute__embeddings_8cu.html b/sparse__permute__embeddings_8cu.html
new file mode 100644
index 000000000..8c022343e
--- /dev/null
+++ b/sparse__permute__embeddings_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_permute_embeddings.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_permute_embeddings.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a2281b30913187261c5233174f3f9622c" name="a2281b30913187261c5233174f3f9622c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2281b30913187261c5233174f3f9622c">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;permute_sequence_embeddings&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a713a7245a4295a57007802212dca05ee">fbgemm_gpu::permute_sequence_embeddings_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__range_8cu.html b/sparse__range_8cu.html
new file mode 100644
index 000000000..a6e7dacb7
--- /dev/null
+++ b/sparse__range_8cu.html
@@ -0,0 +1,164 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_range.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_range.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a7a62f9a9f0e7b39a3331e3cee8be776e" name="a7a62f9a9f0e7b39a3331e3cee8be776e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7a62f9a9f0e7b39a3331e3cee8be776e">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;lengths_range&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#ace0a963a484e5501c50533122cdecc3c">fbgemm_gpu::lengths_range_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85fc3de0cb5d8acd0c760b984ff30f3b" name="a85fc3de0cb5d8acd0c760b984ff30f3b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85fc3de0cb5d8acd0c760b984ff30f3b">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;offsets_range&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a3d88da2f7a769565c9ebdc070467eabe">fbgemm_gpu::offsets_range_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__reorder__batched__ad_8cu.html b/sparse__reorder__batched__ad_8cu.html
new file mode 100644
index 000000000..b43f623f2
--- /dev/null
+++ b/sparse__reorder__batched__ad_8cu.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_reorder_batched_ad.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_reorder_batched_ad.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__segment__sum__csr_8cu.html b/sparse__segment__sum__csr_8cu.html
new file mode 100644
index 000000000..7a9d44823
--- /dev/null
+++ b/sparse__segment__sum__csr_8cu.html
@@ -0,0 +1,138 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_segment_sum_csr.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_segment_sum_csr.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ae64cf20351791f453c8f3156ed01c224" name="ae64cf20351791f453c8f3156ed01c224"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae64cf20351791f453c8f3156ed01c224">&#9670;&#160;</a></span>FBGEMM_OP_DISPATCH()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">FBGEMM_OP_DISPATCH </td>
+          <td>(</td>
+          <td class="paramtype">CUDA</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&quot;segment_sum_csr&quot;</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a8ae9711da44e5cd4a81f95a762b41180">fbgemm_gpu::segment_sum_csr_cuda</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/sparse__zipf_8cu.html b/sparse__zipf_8cu.html
new file mode 100644
index 000000000..286eb8a13
--- /dev/null
+++ b/sparse__zipf_8cu.html
@@ -0,0 +1,139 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/sparse_zipf.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_828e33ae11ea9ec04ffe6e59c52eef6d.html">sparse_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">sparse_zipf.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="sparse__ops_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype">fbgemm</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">m</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__cache_2common_8cuh.html b/split__embeddings__cache_2common_8cuh.html
new file mode 100644
index 000000000..c6e3345a9
--- /dev/null
+++ b/split__embeddings__cache_2common_8cuh.html
@@ -0,0 +1,129 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/common.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_radix_sort.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_run_length_encode.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_select.cuh&gt;</code><br />
+<code>#include &lt;cub/block/block_reduce.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAGeneratorImpl.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/detail/KernelUtils.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAGraphsUtils.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__cache__cuda_8cuh.html">fbgemm_gpu/split_embeddings_cache_cuda.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__cache_2common_8h.html b/split__embeddings__cache_2common_8h.html
new file mode 100644
index 000000000..66ce0baa1
--- /dev/null
+++ b/split__embeddings__cache_2common_8h.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/common.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">common.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/AccumulateType.h&gt;</code><br />
+<code>#include &lt;ATen/TensorUtils.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;limits&gt;</code><br />
+<code>#include &lt;mutex&gt;</code><br />
+<code>#include &quot;<a class="el" href="dispatch__macros_8h.html">fbgemm_gpu/dispatch_macros.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_gpu/fbgemm_tensor_accessor.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__cache__cuda_8cuh.html b/split__embeddings__cache__cuda_8cuh.html
new file mode 100644
index 000000000..18628331e
--- /dev/null
+++ b/split__embeddings__cache__cuda_8cuh.html
@@ -0,0 +1,162 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/split_embeddings_cache_cuda.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">split_embeddings_cache_cuda.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ga4887151424a90cfd0abef174a4e91f3f" id="r_ga4887151424a90cfd0abef174a4e91f3f"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga4887151424a90cfd0abef174a4e91f3f">get_unique_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_indices</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">compute_count</a>)</td></tr>
+<tr class="separator:ga4887151424a90cfd0abef174a4e91f3f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga76807cfe283a9e8f258818f3f439e6cd" id="r_ga76807cfe283a9e8f258818f3f439e6cd"><td class="memItemLeft" align="right" valign="top">std::pair&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga76807cfe283a9e8f258818f3f439e6cd">lru_cache_find_uncached_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unique_indices_length</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">time_stamp</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lru_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">gather_cache_stats</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uvm_cache_stats</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lock_cache_line</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>)</td></tr>
+<tr class="separator:ga76807cfe283a9e8f258818f3f439e6cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga920da453c443675fc7fbc9d68e272a61" id="r_ga920da453c443675fc7fbc9d68e272a61"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga920da453c443675fc7fbc9d68e272a61">host_lxu_cache_slot</a> (<a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">h_in</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">C</a>)</td></tr>
+<tr class="separator:ga920da453c443675fc7fbc9d68e272a61"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga23e7545e51b296d9b72c86f37c360dc6" id="r_ga23e7545e51b296d9b72c86f37c360dc6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga23e7545e51b296d9b72c86f37c360dc6">linearize_cache_indices_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>)</td></tr>
+<tr class="separator:ga23e7545e51b296d9b72c86f37c360dc6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga6eed85d3e9b5dbef8a753bb81c2d6e05" id="r_ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga6eed85d3e9b5dbef8a753bb81c2d6e05">linearize_cache_indices_from_row_idx_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_table_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">update_row_indices</a>)</td></tr>
+<tr class="separator:ga6eed85d3e9b5dbef8a753bb81c2d6e05"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga00d12767ad238d73598bf7dc4d1afa06" id="r_ga00d12767ad238d73598bf7dc4d1afa06"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga00d12767ad238d73598bf7dc4d1afa06">lru_cache_populate_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, bool <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats, bool lock_cache_line, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; lxu_cache_locking_counter)</td></tr>
+<tr class="separator:ga00d12767ad238d73598bf7dc4d1afa06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga5958e4cecc978d415714a3dd691fbc11" id="r_ga5958e4cecc978d415714a3dd691fbc11"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga5958e4cecc978d415714a3dd691fbc11">lru_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights_tys, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> row_alignment, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
+<tr class="separator:ga5958e4cecc978d415714a3dd691fbc11"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gae019b6879bd9f89a146e0700d5a4bd8b" id="r_gae019b6879bd9f89a146e0700d5a4bd8b"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gae019b6879bd9f89a146e0700d5a4bd8b">direct_mapped_lru_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_cache_hash_size, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> cache_index_table_map, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights_tys, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> time_stamp, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lru_state, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_miss_timestamp, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> row_alignment, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
+<tr class="separator:gae019b6879bd9f89a146e0700d5a4bd8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga854b8951ef7e78da812be97041d7d2dc" id="r_ga854b8951ef7e78da812be97041d7d2dc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga854b8951ef7e78da812be97041d7d2dc">lfu_cache_populate_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
+<tr class="separator:ga854b8951ef7e78da812be97041d7d2dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2b76a0cf452f00e77696d896d7a402f3" id="r_ga2b76a0cf452f00e77696d896d7a402f3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b76a0cf452f00e77696d896d7a402f3">lfu_cache_populate_byte_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> weights, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_cache_hash_size</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">weights_tys</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_cache_indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lfu_state</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">row_alignment</a>)</td></tr>
+<tr class="separator:ga2b76a0cf452f00e77696d896d7a402f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga124b70b0fede88f508e59111ce6d765f" id="r_ga124b70b0fede88f508e59111ce6d765f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga124b70b0fede88f508e59111ce6d765f">lxu_cache_lookup_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> invalid_index, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; num_uniq_cache_indices, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; lxu_cache_locations_output)</td></tr>
+<tr class="separator:ga124b70b0fede88f508e59111ce6d765f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gab305ebdd3822794c5ac462bf5df4bb49" id="r_gab305ebdd3822794c5ac462bf5df4bb49"><td class="memItemLeft" align="right" valign="top"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gab305ebdd3822794c5ac462bf5df4bb49">direct_mapped_lxu_cache_lookup_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> linear_cache_indices, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_state, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> invalid_index, bool gather_cache_stats, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; uvm_cache_stats)</td></tr>
+<tr class="separator:gab305ebdd3822794c5ac462bf5df4bb49"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga2b055aeb5bf2d99bfb4351271764cab1" id="r_ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga2b055aeb5bf2d99bfb4351271764cab1">lxu_cache_flush_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a17f61eb7bf7a7e4089982fbf69116da5">uvm_weights</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_hash_size_cumsum</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_index_table_map</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a764f8ae801cd000c2a5cb4bb23f14299">weights_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_D</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_state</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a0c2527424502280dfcf6276b49b41cdc">lxu_cache_weights</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="gen__embedding__optimizer__rowwise__adagrad__split__kernel_8cu.html#a5cc1b5faf7430930527acfac8e6b8068">stochastic_rounding</a>)</td></tr>
+<tr class="separator:ga2b055aeb5bf2d99bfb4351271764cab1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gaeaf8f13290f0fe389fefa3fc2a944311" id="r_gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#gaeaf8f13290f0fe389fefa3fc2a944311">lxu_cache_locking_counter_decrement_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">lxu_cache_locking_counter</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>)</td></tr>
+<tr class="separator:gaeaf8f13290f0fe389fefa3fc2a944311"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ga65cba33a439fb1ed50fe2e80dc22b603" id="r_ga65cba33a439fb1ed50fe2e80dc22b603"><td class="memItemLeft" align="right" valign="top">void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__table-batched-embed-cuda.html#ga65cba33a439fb1ed50fe2e80dc22b603">lxu_cache_locations_update_cuda</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a60a1ec59d36df78e844d5cd7a0d34f03">lxu_cache_locations</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> lxu_cache_locations_new, c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; num_uniq_cache_indices)</td></tr>
+<tr class="separator:ga65cba33a439fb1ed50fe2e80dc22b603"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a8f112d04838c2019df06ffbb84dbafba" name="a8f112d04838c2019df06ffbb84dbafba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f112d04838c2019df06ffbb84dbafba">&#9670;&#160;</a></span>emulate_cache_miss()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> emulate_cache_miss </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>enforced_misses_per_256</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>gather_cache_stats</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>uvm_cache_stats</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__cache__ops_8cpp.html b/split__embeddings__cache__ops_8cpp.html
new file mode 100644
index 000000000..257d31a75
--- /dev/null
+++ b/split__embeddings__cache__ops_8cpp.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/split_embeddings_cache_ops.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">split_embeddings_cache_ops.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8h.html">common.h</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__cache__ops_8cu.html b/split__embeddings__cache__ops_8cu.html
new file mode 100644
index 000000000..3008ac8e6
--- /dev/null
+++ b/split__embeddings__cache__ops_8cu.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_cache/split_embeddings_cache_ops.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_7ce412f9e32e10e58164510708821927.html">split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">split_embeddings_cache_ops.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__cache_2common_8cuh.html">common.cuh</a>&quot;</code><br />
+</div></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__utils_8cpp.html b/split__embeddings__utils_8cpp.html
new file mode 100644
index 000000000..0a912eb50
--- /dev/null
+++ b/split__embeddings__utils_8cpp.html
@@ -0,0 +1,154 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils/split_embeddings_utils.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html">split_embeddings_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">split_embeddings_utils.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="af53d2b0e9d8aeadd7d5094bd03ea25cc" name="af53d2b0e9d8aeadd7d5094bd03ea25cc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af53d2b0e9d8aeadd7d5094bd03ea25cc">&#9670;&#160;</a></span>TORCH_LIBRARY_FRAGMENT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_FRAGMENT </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">m</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a1490b57e6f9b7f7f7b12c0359a2f91" name="a5a1490b57e6f9b7f7f7b12c0359a2f91"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a1490b57e6f9b7f7f7b12c0359a2f91">&#9670;&#160;</a></span>TORCH_LIBRARY_IMPL()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TORCH_LIBRARY_IMPL </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Meta</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">m</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/split__embeddings__utils_8cuh.html b/split__embeddings__utils_8cuh.html
new file mode 100644
index 000000000..d1226e52c
--- /dev/null
+++ b/split__embeddings__utils_8cuh.html
@@ -0,0 +1,530 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/split_embeddings_utils.cuh File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">split_embeddings_utils.cuh File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="embedding__common_8h.html">fbgemm_gpu/embedding_common.h</a>&quot;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a508f832d3fec529868cbb1f9fa9defc8" id="r_a508f832d3fec529868cbb1f9fa9defc8"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#a508f832d3fec529868cbb1f9fa9defc8">transpose_embedding_input</a> (<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> hash_size_cumsum, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_hash_size_bits, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acbf20500022fb5f972956bea423a05ff">indices</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#aff2584a62b3409906c19c5419a4cc647">offsets</a>, bool nobag=<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a>, const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;vbe_b_t_map=c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;(), const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> info_B_num_bits=26, const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> info_B_mask=0x2FFFFFF, const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> total_unique_indices=-1, const bool is_index_select=<a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a>, const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#aa162b310777fc83fbde6ed5d0d35df4c">total_L_offsets</a>=c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;(), const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#acac1f3391492ec3c4a8942ec48197027">fixed_L_per_warp</a>=0, const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> num_warps_per_feature=0)</td></tr>
+<tr class="separator:a508f832d3fec529868cbb1f9fa9defc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0dcbedd529d5873ad0cac75397cb1f8" id="r_ae0dcbedd529d5873ad0cac75397cb1f8"><td class="memItemLeft" align="right" valign="top">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="#ae0dcbedd529d5873ad0cac75397cb1f8">generate_vbe_metadata</a> (<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">B_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">B_offsets_rank_per_feature</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">output_offsets_feature_rank</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &amp;<a class="el" href="gen__batch__index__select__dim0__forward__kernel__small_8cu.html#a8a3ac708f5fc38ea5ebecdbe685f3c73">D_offsets</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="gen__embedding__forward__dense__unweighted__nobag__kernel__small_8cu.html#a057f5488fcdaf454d09c4f1b25374ac9">D</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">nobag</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">max_B_feature_rank</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> info_B_num_bits, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_B</a>)</td></tr>
+<tr class="separator:ae0dcbedd529d5873ad0cac75397cb1f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a91fe9e10ff5c98fe4952c9c0986476b4" name="a91fe9e10ff5c98fe4952c9c0986476b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91fe9e10ff5c98fe4952c9c0986476b4">&#9670;&#160;</a></span>DECL_RADIX_SORT_PAIRS_FN</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DECL_RADIX_SORT_PAIRS_FN</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">KeyT, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">ValueT</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  cudaError_t radix_sort_pairs(                \</div>
+<div class="line">      <span class="keywordtype">void</span>* d_temp_storage,                    \</div>
+<div class="line">      <span class="keywordtype">size_t</span>&amp; temp_storage_bytes,              \</div>
+<div class="line">      <span class="keyword">const</span> KeyT* d_keys_in,                   \</div>
+<div class="line">      KeyT* d_keys_out,                        \</div>
+<div class="line">      <span class="keyword">const</span> ValueT* d_values_in,               \</div>
+<div class="line">      ValueT* d_values_out,                    \</div>
+<div class="line">      <span class="keywordtype">int</span> num_items,                           \</div>
+<div class="line">      <span class="keywordtype">int</span> begin_bit = 0,                       \</div>
+<div class="line">      <span class="keywordtype">int</span> end_bit = <span class="keyword">sizeof</span>(KeyT) * 8,          \</div>
+<div class="line">      cudaStream_t stream = 0)</div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aaaa05e63829893f17b951de7dc993747" name="aaaa05e63829893f17b951de7dc993747"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaaa05e63829893f17b951de7dc993747">&#9670;&#160;</a></span>adjust_info_B_num_bits()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; int32_t, <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> &gt; adjust_info_B_num_bits </td>
+          <td>(</td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"><em>T</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a665ecb055cdda875801b442d35297e10" name="a665ecb055cdda875801b442d35297e10"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a665ecb055cdda875801b442d35297e10">&#9670;&#160;</a></span>DECL_RADIX_SORT_PAIRS_FN() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DECL_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07c7c57b2dd34f8dcede30593003253c" name="a07c7c57b2dd34f8dcede30593003253c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07c7c57b2dd34f8dcede30593003253c">&#9670;&#160;</a></span>DECL_RADIX_SORT_PAIRS_FN() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DECL_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94564bf3eeebee1b64b0fe3ba0b3b7e0" name="a94564bf3eeebee1b64b0fe3ba0b3b7e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94564bf3eeebee1b64b0fe3ba0b3b7e0">&#9670;&#160;</a></span>DECL_RADIX_SORT_PAIRS_FN() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DECL_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int32_t</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a68379ca489210e052be87595ff7c1ec7" name="a68379ca489210e052be87595ff7c1ec7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68379ca489210e052be87595ff7c1ec7">&#9670;&#160;</a></span>DECL_RADIX_SORT_PAIRS_FN() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">DECL_RADIX_SORT_PAIRS_FN </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0dcbedd529d5873ad0cac75397cb1f8" name="ae0dcbedd529d5873ad0cac75397cb1f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0dcbedd529d5873ad0cac75397cb1f8">&#9670;&#160;</a></span>generate_vbe_metadata()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; generate_vbe_metadata </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>B_offsets_rank_per_feature</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>output_offsets_feature_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &amp;</td>          <td class="paramname"><span class="paramname"><em>D_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>D</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>nobag</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>max_B_feature_rank</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_B</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Generate VBE metadata namely output_offsets and b_t_map</p>
+<p>row_output_offsets A 1D tensor that contains the output offset of each b (sample) and t (feature/table) pair. The output serializes O_r_t where O_r_t is the local output of rank r and feature/table t (t is the fastest moving index). b_t_map A 1D tensor that contains the b and t information of the linearized b and t (b is the fastest moving index).</p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">B_offsets</td><td>Batch size offsets for all features. </td></tr>
+    <tr><td class="paramname">B_offsets_rank_per_feature</td><td>Batch size offsets for all ranks (GPUs) for each feature. </td></tr>
+    <tr><td class="paramname">output_offsets_feature_rank</td><td>Output offsets for all features and ranks and features. </td></tr>
+    <tr><td class="paramname">D_offsets</td><td>Embedding dimension offsets. Required if nobag is false. </td></tr>
+    <tr><td class="paramname">D</td><td>The embedding dimension. Required if nobag is true. </td></tr>
+    <tr><td class="paramname">nobag</td><td>A boolean to indicate if TBE is pooled (false) or sequence (true). </td></tr>
+    <tr><td class="paramname">max_B_feature_rank</td><td>Maximum number of batches for feature ranking </td></tr>
+    <tr><td class="paramname">info_B_num_bits</td><td>The number of bits used to encode a sample ID. (Used for populating b_t_map). </td></tr>
+    <tr><td class="paramname">total_B</td><td>The total number of samples (i.e., the total number of b and t pairs). </td></tr>
+  </table>
+  </dd>
+</dl>
+
+</div>
+</div>
+<a id="a0994f8d37247e9754d069f16ee195c01" name="a0994f8d37247e9754d069f16ee195c01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0994f8d37247e9754d069f16ee195c01">&#9670;&#160;</a></span>get_infos_metadata()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a>, <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> &gt; get_infos_metadata </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>unused</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>B</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>T</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a508f832d3fec529868cbb1f9fa9defc8" name="a508f832d3fec529868cbb1f9fa9defc8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a508f832d3fec529868cbb1f9fa9defc8">&#9670;&#160;</a></span>transpose_embedding_input()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; transpose_embedding_input </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>nobag</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em><span class="paramdefsep"> = </span><span class="paramdefval">26</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em><span class="paramdefsep"> = </span><span class="paramdefval">0x2FFFFFF</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em><span class="paramdefsep"> = </span><span class="paramdefval">-1</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>is_index_select</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em><span class="paramdefsep"> = </span><span class="paramdefval">c10::optional&lt;&#160;<a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>&#160;&gt;()</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em><span class="paramdefsep"> = </span><span class="paramdefval">0</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>"Transpose" embedding inputs by sorting indices by their values. Logically this transpose compressed sparse row (CSR) representation stored in indices and offsets to compressed sparse column (CSC). </p>
+
+</div>
+</div>
+<h2 class="groupheader">Variable Documentation</h2>
+<a id="a312a32dcc1f3a4980ed4c458b8bab67f" name="a312a32dcc1f3a4980ed4c458b8bab67f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a312a32dcc1f3a4980ed4c458b8bab67f">&#9670;&#160;</a></span>DEFAULT_INFO_B_MASK</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> DEFAULT_INFO_B_MASK = (1u &lt;&lt; <a class="el" href="#ac9d136da765bb4871acd477da0f2c254">DEFAULT_INFO_B_NUM_BITS</a>) - 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9d136da765bb4871acd477da0f2c254" name="ac9d136da765bb4871acd477da0f2c254"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9d136da765bb4871acd477da0f2c254">&#9670;&#160;</a></span>DEFAULT_INFO_B_NUM_BITS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int DEFAULT_INFO_B_NUM_BITS = 26</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a27002d5a8e75578957e448377c440dbd" name="a27002d5a8e75578957e448377c440dbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a27002d5a8e75578957e448377c440dbd">&#9670;&#160;</a></span>DEFAULT_INFO_NUM_BITS</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr int DEFAULT_INFO_NUM_BITS = 32</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8fe8da855c3ca31f1825ef6779aa2458" name="a8fe8da855c3ca31f1825ef6779aa2458"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fe8da855c3ca31f1825ef6779aa2458">&#9670;&#160;</a></span>MAX_B</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> MAX_B = (1u &lt;&lt; <a class="el" href="#ac9d136da765bb4871acd477da0f2c254">DEFAULT_INFO_B_NUM_BITS</a>) - 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a83944439cec525d70fcf8281a639760d" name="a83944439cec525d70fcf8281a639760d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83944439cec525d70fcf8281a639760d">&#9670;&#160;</a></span>MAX_T</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">constexpr <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> MAX_T</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">constexpr</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div>
+<div class="line">    (1u &lt;&lt; (<a class="code hl_variable" href="#a27002d5a8e75578957e448377c440dbd">DEFAULT_INFO_NUM_BITS</a> - <a class="code hl_variable" href="#ac9d136da765bb4871acd477da0f2c254">DEFAULT_INFO_B_NUM_BITS</a>)) - 1</div>
+<div class="ttc" id="asplit__embeddings__utils_8cuh_html_a27002d5a8e75578957e448377c440dbd"><div class="ttname"><a href="#a27002d5a8e75578957e448377c440dbd">DEFAULT_INFO_NUM_BITS</a></div><div class="ttdeci">constexpr int DEFAULT_INFO_NUM_BITS</div><div class="ttdef"><b>Definition</b> split_embeddings_utils.cuh:17</div></div>
+<div class="ttc" id="asplit__embeddings__utils_8cuh_html_ac9d136da765bb4871acd477da0f2c254"><div class="ttname"><a href="#ac9d136da765bb4871acd477da0f2c254">DEFAULT_INFO_B_NUM_BITS</a></div><div class="ttdeci">constexpr int DEFAULT_INFO_B_NUM_BITS</div><div class="ttdef"><b>Definition</b> split_embeddings_utils.cuh:18</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/ssd__split__embeddings__cache__cuda_8cu.html b/ssd__split__embeddings__cache__cuda_8cu.html
new file mode 100644
index 000000000..06a80e494
--- /dev/null
+++ b/ssd__split__embeddings__cache__cuda_8cu.html
@@ -0,0 +1,224 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache/ssd_split_embeddings_cache_cuda.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html">ssd_split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">ssd_split_embeddings_cache_cuda.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/TensorAccessor.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDADeviceAssertion.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDADeviceAssertionHost.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAGuard.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/Atomic.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_gpu/fbgemm_cuda_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__cache__cuda_8cuh.html">fbgemm_gpu/split_embeddings_cache_cuda.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="a7d15f4b6131224480844be177fe6b28d" name="a7d15f4b6131224480844be177fe6b28d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d15f4b6131224480844be177fe6b28d">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">scalar_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac79184e1b6e3d831580eba191b6da2e" name="aac79184e1b6e3d831580eba191b6da2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac79184e1b6e3d831580eba191b6da2e">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8a561f5585f09252076650c0d34457d7" name="a8a561f5585f09252076650c0d34457d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a561f5585f09252076650c0d34457d7">&#9670;&#160;</a></span>masked_index_put_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> masked_index_put_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a872136033719ff00d6b05e94e4b1cbab" name="a872136033719ff00d6b05e94e4b1cbab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a872136033719ff00d6b05e94e4b1cbab">&#9670;&#160;</a></span>ssd_cache_populate_actions_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; ssd_cache_populate_actions_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>prefetch_dist</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/ssd__split__table__batched__embeddings_8cpp.html b/ssd__split__table__batched__embeddings_8cpp.html
new file mode 100644
index 000000000..863728263
--- /dev/null
+++ b/ssd__split__table__batched__embeddings_8cpp.html
@@ -0,0 +1,197 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache/ssd_split_table_batched_embeddings.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html">ssd_split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">ssd_split_table_batched_embeddings.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/core/op_registration/op_registration.h&gt;</code><br />
+<code>#include &lt;torch/library.h&gt;</code><br />
+<code>#include &lt;torch/custom_class.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="ssd__table__batched__embeddings_8h.html">./ssd_table_batched_embeddings.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="ac6846069e59fcf7c6fad94b1321b0dd0" name="ac6846069e59fcf7c6fad94b1321b0dd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6846069e59fcf7c6fad94b1321b0dd0">&#9670;&#160;</a></span>masked_index_put_byte_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> masked_index_put_byte_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8a561f5585f09252076650c0d34457d7" name="a8a561f5585f09252076650c0d34457d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a561f5585f09252076650c0d34457d7">&#9670;&#160;</a></span>masked_index_put_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> masked_index_put_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>self</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>values</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>count</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a872136033719ff00d6b05e94e4b1cbab" name="a872136033719ff00d6b05e94e4b1cbab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a872136033719ff00d6b05e94e4b1cbab">&#9670;&#160;</a></span>ssd_cache_populate_actions_cuda()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; ssd_cache_populate_actions_cuda </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>linear_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_state</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>time_stamp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>prefetch_dist</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lru_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/ssd__table__batched__embeddings_8h.html b/ssd__table__batched__embeddings_8h.html
new file mode 100644
index 000000000..6d4abbf68
--- /dev/null
+++ b/ssd__table__batched__embeddings_8h.html
@@ -0,0 +1,122 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/ssd_split_embeddings_cache/ssd_table_batched_embeddings.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_4ba5c3fb534fa6dc09bb4e43398a4fa2.html">ssd_split_embeddings_cache</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">ssd_table_batched_embeddings.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;random&gt;</code><br />
+<code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;ATen/record_function.h&gt;</code><br />
+<code>#include &lt;folly/container/F14Map.h&gt;</code><br />
+<code>#include &lt;glog/logging.h&gt;</code><br />
+<code>#include &lt;folly/Random.h&gt;</code><br />
+<code>#include &lt;folly/concurrency/UnboundedQueue.h&gt;</code><br />
+<code>#include &lt;folly/executors/CPUThreadPoolExecutor.h&gt;</code><br />
+<code>#include &lt;folly/futures/Future.h&gt;</code><br />
+<code>#include &lt;folly/hash/Hash.h&gt;</code><br />
+<code>#include &lt;rocksdb/cache.h&gt;</code><br />
+<code>#include &lt;rocksdb/db.h&gt;</code><br />
+<code>#include &lt;rocksdb/filter_policy.h&gt;</code><br />
+<code>#include &lt;rocksdb/rate_limiter.h&gt;</code><br />
+<code>#include &lt;rocksdb/slice_transform.h&gt;</code><br />
+<code>#include &lt;rocksdb/table.h&gt;</code><br />
+<code>#include &lt;rocksdb/table_properties.h&gt;</code><br />
+<code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;cuda_runtime.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="nested-classes" name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classssd_1_1_initializer.html">Initializer</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classssd_1_1_embedding_rocks_d_b.html">EmbeddingRocksDB</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacessd" id="r_namespacessd"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacessd.html">ssd</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/stacked__jagged__1d__to__dense_8cu.html b/stacked__jagged__1d__to__dense_8cu.html
new file mode 100644
index 000000000..5d39b7445
--- /dev/null
+++ b/stacked__jagged__1d__to__dense_8cu.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/stacked_jagged_1d_to_dense.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">stacked_jagged_1d_to_dense.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/stacked__jagged__2d__to__dense_8cu.html b/stacked__jagged__2d__to__dense_8cu.html
new file mode 100644
index 000000000..d43cf0df2
--- /dev/null
+++ b/stacked__jagged__2d__to__dense_8cu.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/jagged_tensor_ops/stacked_jagged_2d_to_dense.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_a88d368584008a90df396d91e5b8b095.html">jagged_tensor_ops</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">stacked_jagged_2d_to_dense.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_stack_array-members.html b/struct_stack_array-members.html
new file mode 100644
index 000000000..cf4268836
--- /dev/null
+++ b/struct_stack_array-members.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">StackArray&lt; T &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="struct_stack_array.html">StackArray&lt; T &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="struct_stack_array.html#a7cff664dfb347e3967c24b7c4ebe0fa9">ndim</a></td><td class="entry"><a class="el" href="struct_stack_array.html">StackArray&lt; T &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="struct_stack_array.html#a9f80f8c0a4403726aa06af2340127ce3">vals</a></td><td class="entry"><a class="el" href="struct_stack_array.html">StackArray&lt; T &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_stack_array.html b/struct_stack_array.html
new file mode 100644
index 000000000..467d514b7
--- /dev/null
+++ b/struct_stack_array.html
@@ -0,0 +1,123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: StackArray&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="struct_stack_array-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">StackArray&lt; T &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;sparse_ops_utils.h&gt;</code></p>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a7cff664dfb347e3967c24b7c4ebe0fa9" name="a7cff664dfb347e3967c24b7c4ebe0fa9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cff664dfb347e3967c24b7c4ebe0fa9">&#9670;&#160;</a></span>ndim</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">size_t ndim</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f80f8c0a4403726aa06af2340127ce3" name="a9f80f8c0a4403726aa06af2340127ce3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f80f8c0a4403726aa06af2340127ce3">&#9670;&#160;</a></span>vals</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> vals[<a class="el" href="sparse__ops__utils_8h.html#ab6183b92f9eac6ca49e3055d79dfc83d">kStackArrayMaxDims</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type.html b/struct_vec4_type.html
new file mode 100644
index 000000000..a76f724ab
--- /dev/null
+++ b/struct_vec4_type.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4Type&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4Type&lt; T &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01at_1_1_half_01_4-members.html b/struct_vec4_type_3_01at_1_1_half_01_4-members.html
new file mode 100644
index 000000000..75b23dd70
--- /dev/null
+++ b/struct_vec4_type_3_01at_1_1_half_01_4-members.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4Type&lt; at::Half &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html#af96b1e07047414416d113699f4285a02">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01at_1_1_half_01_4.html">Vec4Type&lt; at::Half &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01at_1_1_half_01_4.html b/struct_vec4_type_3_01at_1_1_half_01_4.html
new file mode 100644
index 000000000..404a9b32d
--- /dev/null
+++ b/struct_vec4_type_3_01at_1_1_half_01_4.html
@@ -0,0 +1,133 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4Type&lt; at::Half &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="struct_vec4_type_3_01at_1_1_half_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4Type&lt; at::Half &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="af96b1e07047414416d113699f4285a02" name="af96b1e07047414416d113699f4285a02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af96b1e07047414416d113699f4285a02">&#9670;&#160;</a></span>type <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#af96b1e07047414416d113699f4285a02">type</a> = <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af96b1e07047414416d113699f4285a02" name="af96b1e07047414416d113699f4285a02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af96b1e07047414416d113699f4285a02">&#9670;&#160;</a></span>type <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#af96b1e07047414416d113699f4285a02">type</a> = <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af96b1e07047414416d113699f4285a02" name="af96b1e07047414416d113699f4285a02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af96b1e07047414416d113699f4285a02">&#9670;&#160;</a></span>type <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#af96b1e07047414416d113699f4285a02">type</a> = float2</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following files:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01float_01_4-members.html b/struct_vec4_type_3_01float_01_4-members.html
new file mode 100644
index 000000000..545c39a24
--- /dev/null
+++ b/struct_vec4_type_3_01float_01_4-members.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4Type&lt; float &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html#aef2d7a9710bd35cfd4161c950176220e">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01float_01_4.html">Vec4Type&lt; float &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01float_01_4.html b/struct_vec4_type_3_01float_01_4.html
new file mode 100644
index 000000000..cbeb62bb8
--- /dev/null
+++ b/struct_vec4_type_3_01float_01_4.html
@@ -0,0 +1,133 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4Type&lt; float &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="struct_vec4_type_3_01float_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4Type&lt; float &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aef2d7a9710bd35cfd4161c950176220e" name="aef2d7a9710bd35cfd4161c950176220e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef2d7a9710bd35cfd4161c950176220e">&#9670;&#160;</a></span>type <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#aef2d7a9710bd35cfd4161c950176220e">type</a> = <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef2d7a9710bd35cfd4161c950176220e" name="aef2d7a9710bd35cfd4161c950176220e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef2d7a9710bd35cfd4161c950176220e">&#9670;&#160;</a></span>type <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#aef2d7a9710bd35cfd4161c950176220e">type</a> = <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef2d7a9710bd35cfd4161c950176220e" name="aef2d7a9710bd35cfd4161c950176220e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef2d7a9710bd35cfd4161c950176220e">&#9670;&#160;</a></span>type <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#aef2d7a9710bd35cfd4161c950176220e">type</a> = float4</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following files:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01uint8__t_01_4-members.html b/struct_vec4_type_3_01uint8__t_01_4-members.html
new file mode 100644
index 000000000..0714d3464
--- /dev/null
+++ b/struct_vec4_type_3_01uint8__t_01_4-members.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4Type&lt; uint8_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> typedef</td><td class="entry"><a class="el" href="struct_vec4_type_3_01uint8__t_01_4.html">Vec4Type&lt; uint8_t &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/struct_vec4_type_3_01uint8__t_01_4.html b/struct_vec4_type_3_01uint8__t_01_4.html
new file mode 100644
index 000000000..3bcfea491
--- /dev/null
+++ b/struct_vec4_type_3_01uint8__t_01_4.html
@@ -0,0 +1,133 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4Type&lt; uint8_t &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="struct_vec4_type_3_01uint8__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4Type&lt; uint8_t &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aeeb5ec644b58a782b9dbaa98b3475cad" name="aeeb5ec644b58a782b9dbaa98b3475cad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeeb5ec644b58a782b9dbaa98b3475cad">&#9670;&#160;</a></span>type <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> = <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeeb5ec644b58a782b9dbaa98b3475cad" name="aeeb5ec644b58a782b9dbaa98b3475cad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeeb5ec644b58a782b9dbaa98b3475cad">&#9670;&#160;</a></span>type <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> = <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeeb5ec644b58a782b9dbaa98b3475cad" name="aeeb5ec644b58a782b9dbaa98b3475cad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeeb5ec644b58a782b9dbaa98b3475cad">&#9670;&#160;</a></span>type <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#aeeb5ec644b58a782b9dbaa98b3475cad">type</a> = <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following files:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html">gen_embedding_forward_split_unweighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/_skbuild/linux-x86_64-3.12/cmake-build/<a class="el" href="gen__embedding__forward__split__weighted__v2__kernel_8cu.html">gen_embedding_forward_split_weighted_v2_kernel.cu</a></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/<a class="el" href="embedding__forward__split__kernel__v2__template_8cu.html">embedding_forward_split_kernel_v2_template.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_bitonic_sort-members.html b/structfbgemm__gpu_1_1_bitonic_sort-members.html
new file mode 100644
index 000000000..609cdf028
--- /dev/null
+++ b/structfbgemm__gpu_1_1_bitonic_sort-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">BitonicSort&lt; K, V, Dir, Comp &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort&lt; K, V, Dir, Comp &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html#ae729c535b885ed8e2aca6d99ef51e4b0">sort</a>(K k[1], V v[1])</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort&lt; K, V, Dir, Comp &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_bitonic_sort.html b/structfbgemm__gpu_1_1_bitonic_sort.html
new file mode 100644
index 000000000..20e3c9d8e
--- /dev/null
+++ b/structfbgemm__gpu_1_1_bitonic_sort.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: BitonicSort&lt; K, V, Dir, Comp &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_bitonic_sort.html">BitonicSort</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_bitonic_sort-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">BitonicSort&lt; K, V, Dir, Comp &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae729c535b885ed8e2aca6d99ef51e4b0" name="ae729c535b885ed8e2aca6d99ef51e4b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae729c535b885ed8e2aca6d99ef51e4b0">&#9670;&#160;</a></span>sort()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> K , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">V</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> Dir, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">Comp</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> sort </td>
+          <td>(</td>
+          <td class="paramtype">K</td>          <td class="paramname"><span class="paramname"><em>k</em>[1], </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">V</a></td>          <td class="paramname"><span class="paramname"><em>v</em>[1]</span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_comparator-members.html b/structfbgemm__gpu_1_1_comparator-members.html
index d10517b43..39c3b5506 100644
--- a/structfbgemm__gpu_1_1_comparator-members.html
+++ b/structfbgemm__gpu_1_1_comparator-members.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Member List</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -69,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm_gpu</b></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -78,10 +80,13 @@
 <div class="contents">
 
 <p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator&lt; T &gt;</a>, including all inherited members.</p>
-</div><!-- contents -->
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_comparator.html#a869e6734f5357dab7a63300629b414c8">gt</a>(T a, T b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_comparator.html#aff9ffad7ca52493418c969769327b704">lt</a>(T a, T b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/structfbgemm__gpu_1_1_comparator.html b/structfbgemm__gpu_1_1_comparator.html
index 458388948..1ac9ea2f1 100644
--- a/structfbgemm__gpu_1_1_comparator.html
+++ b/structfbgemm__gpu_1_1_comparator.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Comparator&lt; T &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -69,7 +71,7 @@
 
 <div id="nav-path" class="navpath">
   <ul>
-<li class="navelem"><b>fbgemm_gpu</b></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a></li>  </ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_comparator.html">Comparator</a></li>  </ul>
 </div>
 </div><!-- top -->
 <div class="header">
@@ -78,13 +80,76 @@
   <div class="headertitle"><div class="title">Comparator&lt; T &gt; Struct Template Reference</div></div>
 </div><!--header-->
 <div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a869e6734f5357dab7a63300629b414c8" name="a869e6734f5357dab7a63300629b414c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a869e6734f5357dab7a63300629b414c8">&#9670;&#160;</a></span>gt()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> gt </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff9ffad7ca52493418c969769327b704" name="aff9ffad7ca52493418c969769327b704"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff9ffad7ca52493418c969769327b704">&#9670;&#160;</a></span>lt()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> lt </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
-<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<b>fbgemm_cuda_utils.cuh</b></li>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/structfbgemm__gpu_1_1_default_ptr_traits-members.html b/structfbgemm__gpu_1_1_default_ptr_traits-members.html
new file mode 100644
index 000000000..bd2555b2c
--- /dev/null
+++ b/structfbgemm__gpu_1_1_default_ptr_traits-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">DefaultPtrTraits&lt; T &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits&lt; T &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html#a931c4685c69254a5749f79cdb56ec814">PtrType</a> typedef</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits&lt; T &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_default_ptr_traits.html b/structfbgemm__gpu_1_1_default_ptr_traits.html
new file mode 100644
index 000000000..a66c577c0
--- /dev/null
+++ b/structfbgemm__gpu_1_1_default_ptr_traits.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: DefaultPtrTraits&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_default_ptr_traits.html">DefaultPtrTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_default_ptr_traits-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">DefaultPtrTraits&lt; T &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;fbgemm_tensor_accessor.h&gt;</code></p>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a931c4685c69254a5749f79cdb56ec814" name="a931c4685c69254a5749f79cdb56ec814"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a931c4685c69254a5749f79cdb56ec814">&#9670;&#160;</a></span>PtrType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typedef</a> <a class="el" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>* <a class="el" href="#a931c4685c69254a5749f79cdb56ec814">PtrType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__tensor__accessor_8h.html">fbgemm_tensor_accessor.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_half4-members.html b/structfbgemm__gpu_1_1_half4-members.html
new file mode 100644
index 000000000..9b0b1bc9f
--- /dev/null
+++ b/structfbgemm__gpu_1_1_half4-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Half4 Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html#a27075551b75deec4b6f30d368075d852">a</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html#a85c654c77d6c3fc7709e8dd1e7ec4a5e">b</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html#a89967f417dba84846fa95a0f010d8922">store</a>(at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_half4.html b/structfbgemm__gpu_1_1_half4.html
new file mode 100644
index 000000000..e0efc2346
--- /dev/null
+++ b/structfbgemm__gpu_1_1_half4.html
@@ -0,0 +1,147 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Half4 Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_half4.html">Half4</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_half4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Half4 Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a89967f417dba84846fa95a0f010d8922" name="a89967f417dba84846fa95a0f010d8922"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89967f417dba84846fa95a0f010d8922">&#9670;&#160;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a27075551b75deec4b6f30d368075d852" name="a27075551b75deec4b6f30d368075d852"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a27075551b75deec4b6f30d368075d852">&#9670;&#160;</a></span>a</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a> a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85c654c77d6c3fc7709e8dd1e7ec4a5e" name="a85c654c77d6c3fc7709e8dd1e7ec4a5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85c654c77d6c3fc7709e8dd1e7ec4a5e">&#9670;&#160;</a></span>b</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a> b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory.html b/structfbgemm__gpu_1_1_shared_memory.html
new file mode 100644
index 000000000..a1fc1857b
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory.html">SharedMemory</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; T &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4-members.html
new file mode 100644
index 000000000..1c4d6e133
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html#a79e2902e4ab8379789578754af90253f">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html
new file mode 100644
index 000000000..3075bb93f
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01double_00_01true_01_4_01_4_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; double, true &gt; &gt; &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a79e2902e4ab8379789578754af90253f" name="a79e2902e4ab8379789578754af90253f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79e2902e4ab8379789578754af90253f">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4-members.html
new file mode 100644
index 000000000..38cf51354
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html#aa277fc58794548c1d2619afa9cd0be9e">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html
new file mode 100644
index 000000000..790d09845
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4.html">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01_vec4_t_3_01at_1_1acc__type_3_01float_00_01true_01_4_01_4_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; Vec4T&lt; at::acc_type&lt; float, true &gt; &gt; &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aa277fc58794548c1d2619afa9cd0be9e" name="aa277fc58794548c1d2619afa9cd0be9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa277fc58794548c1d2619afa9cd0be9e">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::acc_type&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>, <a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#acc5baa8672e7ddf3cefb150e4660d86a">true</a> &gt; &gt; * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4-members.html
new file mode 100644
index 000000000..abb155f7f
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; double &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html#a53ef47c469305fb8b5427b2a0063db6f">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html
new file mode 100644
index 000000000..e6dc28e81
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; double &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4.html">SharedMemory&lt; double &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01double_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; double &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a53ef47c469305fb8b5427b2a0063db6f" name="a53ef47c469305fb8b5427b2a0063db6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53ef47c469305fb8b5427b2a0063db6f">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4-members.html
new file mode 100644
index 000000000..63c7d528d
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; float &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html#a11507d418a31c798c09f74aa6569fb72">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html
new file mode 100644
index 000000000..ecfd0a3ef
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; float &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4.html">SharedMemory&lt; float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01float_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; float &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a11507d418a31c798c09f74aa6569fb72" name="a11507d418a31c798c09f74aa6569fb72"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11507d418a31c798c09f74aa6569fb72">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4-members.html
new file mode 100644
index 000000000..21f7840de
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; int32_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html#a3472f2fcb0b65202627a7a5d0b47ab8f">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html
new file mode 100644
index 000000000..badcb331c
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; int32_t &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4.html">SharedMemory&lt; int32_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int32__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; int32_t &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3472f2fcb0b65202627a7a5d0b47ab8f" name="a3472f2fcb0b65202627a7a5d0b47ab8f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3472f2fcb0b65202627a7a5d0b47ab8f">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a> * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4-members.html b/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4-members.html
new file mode 100644
index 000000000..b08069c3c
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">SharedMemory&lt; int64_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html#ac04ebca5545952c6185a2693bc5d9fc9">getPointer</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html b/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html
new file mode 100644
index 000000000..efc2c1ac6
--- /dev/null
+++ b/structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: SharedMemory&lt; int64_t &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4.html">SharedMemory&lt; int64_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_shared_memory_3_01int64__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">SharedMemory&lt; int64_t &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ac04ebca5545952c6185a2693bc5d9fc9" name="ac04ebca5545952c6185a2693bc5d9fc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac04ebca5545952c6185a2693bc5d9fc9">&#9670;&#160;</a></span>getPointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__device__</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a> * getPointer </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state-members.html b/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state-members.html
new file mode 100644
index 000000000..fb1c44998
--- /dev/null
+++ b/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">StochasticRoundingRNGState Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html#a943da41846f7804fa8edd8b012551545">a</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html b/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html
new file mode 100644
index 000000000..4e379e355
--- /dev/null
+++ b/structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: StochasticRoundingRNGState Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">StochasticRoundingRNGState Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a943da41846f7804fa8edd8b012551545" name="a943da41846f7804fa8edd8b012551545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a943da41846f7804fa8edd8b012551545">&#9670;&#160;</a></span>a</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a> a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_acc_t-members.html b/structfbgemm__gpu_1_1_vec4_acc_t-members.html
new file mode 100644
index 000000000..485f16a22
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_acc_t-members.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4AccT Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1">add</a>(const float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1">add</a>(const float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">add</a>(const uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">add_</a>(const float *vals)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549">add_</a>(const half2 *vals_h)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">div</a>(uint32_t denom)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d">fma</a>(const float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">fma</a>(const float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">fma</a>(const uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">fma_</a>(const float *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42">fma_</a>(const half *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">reset</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">store</a>(float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6">store</a>(float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">store</a>(uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">store_</a>(const float4 *src, float4 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6">store_</a>(const float4 *src, float2 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_acc_t.html b/structfbgemm__gpu_1_1_vec4_acc_t.html
new file mode 100644
index 000000000..fd3e5f3bf
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_acc_t.html
@@ -0,0 +1,599 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4AccT Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_acc_t-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4AccT Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="dynheader">
+Inheritance diagram for Vec4AccT:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structfbgemm__gpu_1_1_vec4_acc_t.png" usemap="#Vec4AccT_map" alt=""/>
+  <map id="Vec4AccT_map" name="Vec4AccT_map">
+<area href="structfbgemm__gpu_1_1_vec4_step_t.html" alt="Vec4StepT&lt; STEP, input_t &gt;" shape="rect" coords="0,56,177,80"/>
+<area href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html" alt="Vec4StepT&lt; STEP, at::Half &gt;" shape="rect" coords="187,56,364,80"/>
+<area href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html" alt="Vec4StepT&lt; STEP, float &gt;" shape="rect" coords="374,56,551,80"/>
+<area href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html" alt="Vec4StepT&lt; STEP, uint8_t &gt;" shape="rect" coords="561,56,738,80"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a7d2508ce413d52826f32884f52ad2f90" name="a7d2508ce413d52826f32884f52ad2f90"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d2508ce413d52826f32884f52ad2f90">&#9670;&#160;</a></span>Vec4AccT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a533e0b7fe298fd776f58607d9f67bda1" name="a533e0b7fe298fd776f58607d9f67bda1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a533e0b7fe298fd776f58607d9f67bda1">&#9670;&#160;</a></span>add() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a827812cf195008164049b47d4fc9efc1" name="a827812cf195008164049b47d4fc9efc1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a827812cf195008164049b47d4fc9efc1">&#9670;&#160;</a></span>add() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a14f0714a4e51293efb99e3d6815be3a2" name="a14f0714a4e51293efb99e3d6815be3a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14f0714a4e51293efb99e3d6815be3a2">&#9670;&#160;</a></span>add() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a746ed2bbabd0878f33b478c587bde0cf" name="a746ed2bbabd0878f33b478c587bde0cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a746ed2bbabd0878f33b478c587bde0cf">&#9670;&#160;</a></span>add_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>vals</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5eebdd38332484343d4400fd08f3b549" name="a5eebdd38332484343d4400fd08f3b549"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5eebdd38332484343d4400fd08f3b549">&#9670;&#160;</a></span>add_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a> *</td>          <td class="paramname"><span class="paramname"><em>vals_h</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a36a62a848632d6968fe6723ee19277da" name="a36a62a848632d6968fe6723ee19277da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36a62a848632d6968fe6723ee19277da">&#9670;&#160;</a></span>div()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> div </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>denom</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0817540a257625fecb7890a0ed2533c" name="ad0817540a257625fecb7890a0ed2533c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0817540a257625fecb7890a0ed2533c">&#9670;&#160;</a></span>fma() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5779758db0a3dea1eb734fb1cbf9670d" name="a5779758db0a3dea1eb734fb1cbf9670d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5779758db0a3dea1eb734fb1cbf9670d">&#9670;&#160;</a></span>fma() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acf03f270b01757bf3c12309e398fc663" name="acf03f270b01757bf3c12309e398fc663"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf03f270b01757bf3c12309e398fc663">&#9670;&#160;</a></span>fma() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1ed20d954c2af00a7af0011bb652f42" name="ad1ed20d954c2af00a7af0011bb652f42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1ed20d954c2af00a7af0011bb652f42">&#9670;&#160;</a></span>fma_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>vals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe8fde8cd9a20ff924fd33e7d16eaa42" name="abe8fde8cd9a20ff924fd33e7d16eaa42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe8fde8cd9a20ff924fd33e7d16eaa42">&#9670;&#160;</a></span>fma_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half</a> *</td>          <td class="paramname"><span class="paramname"><em>vals</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a290527af29e033f3ed6f5464ded1b07e" name="a290527af29e033f3ed6f5464ded1b07e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a290527af29e033f3ed6f5464ded1b07e">&#9670;&#160;</a></span>reset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> reset </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a775650f6f2480831282ed0a8746998f6" name="a775650f6f2480831282ed0a8746998f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a775650f6f2480831282ed0a8746998f6">&#9670;&#160;</a></span>store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac85ba1113a076bb8a6b6e39ad26bb85d" name="ac85ba1113a076bb8a6b6e39ad26bb85d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac85ba1113a076bb8a6b6e39ad26bb85d">&#9670;&#160;</a></span>store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4768b5f85cb93226f4e8e7705a32206" name="ae4768b5f85cb93226f4e8e7705a32206"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4768b5f85cb93226f4e8e7705a32206">&#9670;&#160;</a></span>store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a476bc3df6ed11614b47e7c4b1bb440c6" name="a476bc3df6ed11614b47e7c4b1bb440c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a476bc3df6ed11614b47e7c4b1bb440c6">&#9670;&#160;</a></span>store_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa05890f2dd90061ad3ff516a30e6c196" name="aa05890f2dd90061ad3ff516a30e6c196"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa05890f2dd90061ad3ff516a30e6c196">&#9670;&#160;</a></span>store_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a019a15988d03cdc6474def4b35e32345" name="a019a15988d03cdc6474def4b35e32345"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a019a15988d03cdc6474def4b35e32345">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> acc[4]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_acc_t.png b/structfbgemm__gpu_1_1_vec4_acc_t.png
new file mode 100644
index 000000000..54821f6cb
Binary files /dev/null and b/structfbgemm__gpu_1_1_vec4_acc_t.png differ
diff --git a/structfbgemm__gpu_1_1_vec4_step_t-members.html b/structfbgemm__gpu_1_1_vec4_step_t-members.html
new file mode 100644
index 000000000..c4459fee4
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t-members.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, input_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT&lt; STEP, input_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1">add</a>(const float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1">add</a>(const float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">add</a>(const uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">add_</a>(const float *vals)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549">add_</a>(const half2 *vals_h)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">div</a>(uint32_t denom)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d">fma</a>(const float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">fma</a>(const float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">fma</a>(const uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">fma_</a>(const float *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42">fma_</a>(const half *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">reset</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">store</a>(float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6">store</a>(float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">store</a>(uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">store_</a>(const float4 *src, float4 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6">store_</a>(const float4 *src, float2 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t.html b/structfbgemm__gpu_1_1_vec4_step_t.html
new file mode 100644
index 000000000..7d7a43d35
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4StepT&lt; STEP, input_t &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_step_t-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, input_t &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="dynheader">
+Inheritance diagram for Vec4StepT&lt; STEP, input_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structfbgemm__gpu_1_1_vec4_step_t.png" usemap="#Vec4StepT_3C_20STEP_2C_20input_5Ft_20_3E_map" alt=""/>
+  <map id="Vec4StepT_3C_20STEP_2C_20input_5Ft_20_3E_map" name="Vec4StepT_3C_20STEP_2C_20input_5Ft_20_3E_map">
+<area href="structfbgemm__gpu_1_1_vec4_acc_t.html" alt="Vec4AccT" shape="rect" coords="0,0,175,24"/>
+  </map>
+</div></div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t.png b/structfbgemm__gpu_1_1_vec4_step_t.png
new file mode 100644
index 000000000..86c6a7700
Binary files /dev/null and b/structfbgemm__gpu_1_1_vec4_step_t.png differ
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4-members.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4-members.html
new file mode 100644
index 000000000..5579bd210
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4-members.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, at::Half &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1">add</a>(const float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1">add</a>(const float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">add</a>(const uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">add_</a>(const float *vals)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549">add_</a>(const half2 *vals_h)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">div</a>(uint32_t denom)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d">fma</a>(const float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">fma</a>(const float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">fma</a>(const uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">fma_</a>(const float *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42">fma_</a>(const half *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">index_add</a>(uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad71e777976812302bf4173ce00641b55">index_fma</a>(uint32_t idx, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">index_store</a>(uint32_t idx, float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36">index_store</a>(uint32_t idx, float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c">index_store</a>(uint32_t idx, uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">index_weighted_store</a>(uint32_t idx, float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7">index_weighted_store</a>(uint32_t idx, float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad">index_weighted_store</a>(uint32_t idx, uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#ad300c1cf97abb3337915a7b9616b371e">load</a>(const float2 *ptr, const uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a6de86c6a3f25c34f8b13752e8042ea2e">loaded_vals</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">reset</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">store</a>(float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6">store</a>(float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">store</a>(uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">store_</a>(const float4 *src, float4 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6">store_</a>(const float4 *src, float2 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#a2b4995ca44cb8977ca258395e80a8687">sum</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html#aa7e031196d379ec4120ba58cd6b48024">weighted_sum</a>(const float *const weights, const uint32_t idx_shift, const uint32_t idx_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html
new file mode 100644
index 000000000..9b2bb3ad6
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html
@@ -0,0 +1,472 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4StepT&lt; STEP, at::Half &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.html">Vec4StepT&lt; STEP, at::Half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, at::Half &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="dynheader">
+Inheritance diagram for Vec4StepT&lt; STEP, at::Half &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.png" usemap="#Vec4StepT_3C_20STEP_2C_20at::Half_20_3E_map" alt=""/>
+  <map id="Vec4StepT_3C_20STEP_2C_20at::Half_20_3E_map" name="Vec4StepT_3C_20STEP_2C_20at::Half_20_3E_map">
+<area href="structfbgemm__gpu_1_1_vec4_acc_t.html" alt="Vec4AccT" shape="rect" coords="0,0,177,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2f087d87df54652b9059bfa56b7c0dc3" name="a2f087d87df54652b9059bfa56b7c0dc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f087d87df54652b9059bfa56b7c0dc3">&#9670;&#160;</a></span>index_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad71e777976812302bf4173ce00641b55" name="ad71e777976812302bf4173ce00641b55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad71e777976812302bf4173ce00641b55">&#9670;&#160;</a></span>index_fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3a736a75cd874d0a755c64bc2d5dbf36" name="a3a736a75cd874d0a755c64bc2d5dbf36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a736a75cd874d0a755c64bc2d5dbf36">&#9670;&#160;</a></span>index_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53ce8d22f3e5051594ff8799ede7167a" name="a53ce8d22f3e5051594ff8799ede7167a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53ce8d22f3e5051594ff8799ede7167a">&#9670;&#160;</a></span>index_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6ad661dbc7d9699747b0ec4f268c92c" name="ab6ad661dbc7d9699747b0ec4f268c92c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6ad661dbc7d9699747b0ec4f268c92c">&#9670;&#160;</a></span>index_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a76e58bf5fe9b795864d627ba6748d7d7" name="a76e58bf5fe9b795864d627ba6748d7d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76e58bf5fe9b795864d627ba6748d7d7">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8063756b0e7d2c067a4f7ec2c8f117c1" name="a8063756b0e7d2c067a4f7ec2c8f117c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8063756b0e7d2c067a4f7ec2c8f117c1">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aae4a2ca3b742838cf705dcfd6b62b9ad" name="aae4a2ca3b742838cf705dcfd6b62b9ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae4a2ca3b742838cf705dcfd6b62b9ad">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad300c1cf97abb3337915a7b9616b371e" name="ad300c1cf97abb3337915a7b9616b371e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad300c1cf97abb3337915a7b9616b371e">&#9670;&#160;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b4995ca44cb8977ca258395e80a8687" name="a2b4995ca44cb8977ca258395e80a8687"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b4995ca44cb8977ca258395e80a8687">&#9670;&#160;</a></span>sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> sum </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7e031196d379ec4120ba58cd6b48024" name="aa7e031196d379ec4120ba58cd6b48024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7e031196d379ec4120ba58cd6b48024">&#9670;&#160;</a></span>weighted_sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> weighted_sum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_shift</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a6de86c6a3f25c34f8b13752e8042ea2e" name="a6de86c6a3f25c34f8b13752e8042ea2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6de86c6a3f25c34f8b13752e8042ea2e">&#9670;&#160;</a></span>loaded_vals</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> loaded_vals[<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.png b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.png
new file mode 100644
index 000000000..cf5cbe74e
Binary files /dev/null and b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01at_1_1_half_01_4.png differ
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4-members.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4-members.html
new file mode 100644
index 000000000..10caa3632
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4-members.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, float &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1">add</a>(const float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1">add</a>(const float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">add</a>(const uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">add_</a>(const float *vals)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549">add_</a>(const half2 *vals_h)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">div</a>(uint32_t denom)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d">fma</a>(const float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">fma</a>(const float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">fma</a>(const uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">fma_</a>(const float *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42">fma_</a>(const half *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">index_add</a>(uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ad71e777976812302bf4173ce00641b55">index_fma</a>(uint32_t idx, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">index_store</a>(uint32_t idx, float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36">index_store</a>(uint32_t idx, float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c">index_store</a>(uint32_t idx, uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">index_weighted_store</a>(uint32_t idx, float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7">index_weighted_store</a>(uint32_t idx, float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad">index_weighted_store</a>(uint32_t idx, uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b08d5d5c065fbbe307dfa9237f58dc7">load</a>(const float4 *ptr, const uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a57864e02cf856e5c64f95a762c18151f">loaded_vals</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">reset</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">store</a>(float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6">store</a>(float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">store</a>(uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">store_</a>(const float4 *src, float4 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6">store_</a>(const float4 *src, float2 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#a2b4995ca44cb8977ca258395e80a8687">sum</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html#aa7e031196d379ec4120ba58cd6b48024">weighted_sum</a>(const float *const weights, const uint32_t idx_shift, const uint32_t idx_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html
new file mode 100644
index 000000000..086c951af
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html
@@ -0,0 +1,472 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4StepT&lt; STEP, float &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.html">Vec4StepT&lt; STEP, float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, float &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="dynheader">
+Inheritance diagram for Vec4StepT&lt; STEP, float &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.png" usemap="#Vec4StepT_3C_20STEP_2C_20float_20_3E_map" alt=""/>
+  <map id="Vec4StepT_3C_20STEP_2C_20float_20_3E_map" name="Vec4StepT_3C_20STEP_2C_20float_20_3E_map">
+<area href="structfbgemm__gpu_1_1_vec4_acc_t.html" alt="Vec4AccT" shape="rect" coords="0,0,162,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2f087d87df54652b9059bfa56b7c0dc3" name="a2f087d87df54652b9059bfa56b7c0dc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f087d87df54652b9059bfa56b7c0dc3">&#9670;&#160;</a></span>index_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad71e777976812302bf4173ce00641b55" name="ad71e777976812302bf4173ce00641b55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad71e777976812302bf4173ce00641b55">&#9670;&#160;</a></span>index_fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3a736a75cd874d0a755c64bc2d5dbf36" name="a3a736a75cd874d0a755c64bc2d5dbf36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a736a75cd874d0a755c64bc2d5dbf36">&#9670;&#160;</a></span>index_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53ce8d22f3e5051594ff8799ede7167a" name="a53ce8d22f3e5051594ff8799ede7167a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53ce8d22f3e5051594ff8799ede7167a">&#9670;&#160;</a></span>index_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6ad661dbc7d9699747b0ec4f268c92c" name="ab6ad661dbc7d9699747b0ec4f268c92c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6ad661dbc7d9699747b0ec4f268c92c">&#9670;&#160;</a></span>index_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a76e58bf5fe9b795864d627ba6748d7d7" name="a76e58bf5fe9b795864d627ba6748d7d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76e58bf5fe9b795864d627ba6748d7d7">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8063756b0e7d2c067a4f7ec2c8f117c1" name="a8063756b0e7d2c067a4f7ec2c8f117c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8063756b0e7d2c067a4f7ec2c8f117c1">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aae4a2ca3b742838cf705dcfd6b62b9ad" name="aae4a2ca3b742838cf705dcfd6b62b9ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae4a2ca3b742838cf705dcfd6b62b9ad">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b08d5d5c065fbbe307dfa9237f58dc7" name="a2b08d5d5c065fbbe307dfa9237f58dc7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b08d5d5c065fbbe307dfa9237f58dc7">&#9670;&#160;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b4995ca44cb8977ca258395e80a8687" name="a2b4995ca44cb8977ca258395e80a8687"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b4995ca44cb8977ca258395e80a8687">&#9670;&#160;</a></span>sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> sum </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7e031196d379ec4120ba58cd6b48024" name="aa7e031196d379ec4120ba58cd6b48024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7e031196d379ec4120ba58cd6b48024">&#9670;&#160;</a></span>weighted_sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> weighted_sum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_shift</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a57864e02cf856e5c64f95a762c18151f" name="a57864e02cf856e5c64f95a762c18151f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57864e02cf856e5c64f95a762c18151f">&#9670;&#160;</a></span>loaded_vals</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> loaded_vals[<a class="el" href="gen__embedding__forward__split__unweighted__v2__kernel_8cu.html#aad5a825be51026d8249ffccad954dbb5">STEP</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.png b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.png
new file mode 100644
index 000000000..4c36c8706
Binary files /dev/null and b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01float_01_4.png differ
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4-members.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4-members.html
new file mode 100644
index 000000000..ca1782fbc
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4-members.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, uint8_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a019a15988d03cdc6474def4b35e32345">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a827812cf195008164049b47d4fc9efc1">add</a>(const float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a533e0b7fe298fd776f58607d9f67bda1">add</a>(const float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a14f0714a4e51293efb99e3d6815be3a2">add</a>(const uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a746ed2bbabd0878f33b478c587bde0cf">add_</a>(const float *vals)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5eebdd38332484343d4400fd08f3b549">add_</a>(const half2 *vals_h)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a36a62a848632d6968fe6723ee19277da">div</a>(uint32_t denom)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a5779758db0a3dea1eb734fb1cbf9670d">fma</a>(const float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad0817540a257625fecb7890a0ed2533c">fma</a>(const float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#acf03f270b01757bf3c12309e398fc663">fma</a>(const uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ad1ed20d954c2af00a7af0011bb652f42">fma_</a>(const float *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#abe8fde8cd9a20ff924fd33e7d16eaa42">fma_</a>(const half *vals, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2f087d87df54652b9059bfa56b7c0dc3">index_add</a>(uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ad71e777976812302bf4173ce00641b55">index_fma</a>(uint32_t idx, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a53ce8d22f3e5051594ff8799ede7167a">index_store</a>(uint32_t idx, float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a3a736a75cd874d0a755c64bc2d5dbf36">index_store</a>(uint32_t idx, float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#ab6ad661dbc7d9699747b0ec4f268c92c">index_store</a>(uint32_t idx, uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a8063756b0e7d2c067a4f7ec2c8f117c1">index_weighted_store</a>(uint32_t idx, float4 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a76e58bf5fe9b795864d627ba6748d7d7">index_weighted_store</a>(uint32_t idx, float2 *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aae4a2ca3b742838cf705dcfd6b62b9ad">index_weighted_store</a>(uint32_t idx, uint8_t *ptr, const float weight)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a86807843e011cecc10c8f37761f5fc20">load</a>(const uint8_t *ptr, const uint32_t idx)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a290527af29e033f3ed6f5464ded1b07e">reset</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ac85ba1113a076bb8a6b6e39ad26bb85d">store</a>(float4 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a775650f6f2480831282ed0a8746998f6">store</a>(float2 *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#ae4768b5f85cb93226f4e8e7705a32206">store</a>(uint8_t *ptr)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#aa05890f2dd90061ad3ff516a30e6c196">store_</a>(const float4 *src, float4 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a476bc3df6ed11614b47e7c4b1bb440c6">store_</a>(const float4 *src, float2 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a2b4995ca44cb8977ca258395e80a8687">sum</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html#a7d2508ce413d52826f32884f52ad2f90">Vec4AccT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_acc_t.html">Vec4AccT</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#a6d2826b97c8d5f17a31ed7e7854615ad">Vec4StepT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html#aa7e031196d379ec4120ba58cd6b48024">weighted_sum</a>(const float *const weights, const uint32_t idx_shift, const uint32_t idx_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html
new file mode 100644
index 000000000..884ef1daa
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html
@@ -0,0 +1,483 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4StepT&lt; STEP, uint8_t &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.html">Vec4StepT&lt; STEP, uint8_t &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4StepT&lt; STEP, uint8_t &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="dynheader">
+Inheritance diagram for Vec4StepT&lt; STEP, uint8_t &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.png" usemap="#Vec4StepT_3C_20STEP_2C_20uint8_5Ft_20_3E_map" alt=""/>
+  <map id="Vec4StepT_3C_20STEP_2C_20uint8_5Ft_20_3E_map" name="Vec4StepT_3C_20STEP_2C_20uint8_5Ft_20_3E_map">
+<area href="structfbgemm__gpu_1_1_vec4_acc_t.html" alt="Vec4AccT" shape="rect" coords="0,0,175,24"/>
+  </map>
+</div></div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a6d2826b97c8d5f17a31ed7e7854615ad" name="a6d2826b97c8d5f17a31ed7e7854615ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d2826b97c8d5f17a31ed7e7854615ad">&#9670;&#160;</a></span>Vec4StepT()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_step_t.html">Vec4StepT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2f087d87df54652b9059bfa56b7c0dc3" name="a2f087d87df54652b9059bfa56b7c0dc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f087d87df54652b9059bfa56b7c0dc3">&#9670;&#160;</a></span>index_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad71e777976812302bf4173ce00641b55" name="ad71e777976812302bf4173ce00641b55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad71e777976812302bf4173ce00641b55">&#9670;&#160;</a></span>index_fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3a736a75cd874d0a755c64bc2d5dbf36" name="a3a736a75cd874d0a755c64bc2d5dbf36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a736a75cd874d0a755c64bc2d5dbf36">&#9670;&#160;</a></span>index_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53ce8d22f3e5051594ff8799ede7167a" name="a53ce8d22f3e5051594ff8799ede7167a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53ce8d22f3e5051594ff8799ede7167a">&#9670;&#160;</a></span>index_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6ad661dbc7d9699747b0ec4f268c92c" name="ab6ad661dbc7d9699747b0ec4f268c92c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6ad661dbc7d9699747b0ec4f268c92c">&#9670;&#160;</a></span>index_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a76e58bf5fe9b795864d627ba6748d7d7" name="a76e58bf5fe9b795864d627ba6748d7d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76e58bf5fe9b795864d627ba6748d7d7">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8063756b0e7d2c067a4f7ec2c8f117c1" name="a8063756b0e7d2c067a4f7ec2c8f117c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8063756b0e7d2c067a4f7ec2c8f117c1">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aae4a2ca3b742838cf705dcfd6b62b9ad" name="aae4a2ca3b742838cf705dcfd6b62b9ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae4a2ca3b742838cf705dcfd6b62b9ad">&#9670;&#160;</a></span>index_weighted_store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> index_weighted_store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>weight</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a86807843e011cecc10c8f37761f5fc20" name="a86807843e011cecc10c8f37761f5fc20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a86807843e011cecc10c8f37761f5fc20">&#9670;&#160;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2b4995ca44cb8977ca258395e80a8687" name="a2b4995ca44cb8977ca258395e80a8687"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b4995ca44cb8977ca258395e80a8687">&#9670;&#160;</a></span>sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> sum </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7e031196d379ec4120ba58cd6b48024" name="aa7e031196d379ec4120ba58cd6b48024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7e031196d379ec4120ba58cd6b48024">&#9670;&#160;</a></span>weighted_sum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a> STEP&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> weighted_sum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a></td>          <td class="paramname"><span class="paramname"><em>weights</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_shift</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>idx_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.png b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.png
new file mode 100644
index 000000000..fcf71b1f1
Binary files /dev/null and b/structfbgemm__gpu_1_1_vec4_step_t_3_01_s_t_e_p_00_01uint8__t_01_4.png differ
diff --git a/structfbgemm__gpu_1_1_vec4_t.html b/structfbgemm__gpu_1_1_vec4_t.html
new file mode 100644
index 000000000..c2afba3ca
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4T&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4T&lt; T &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4-members.html b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4-members.html
new file mode 100644
index 000000000..2249b179e
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4-members.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4T&lt; at::BFloat16 &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af3cbc396133203521c050935239eebe2">add_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a3f8a7e8e00c59205f3b32b345290922b">add_</a>(const Vec4T&lt; at::Half &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a140a9bcb80dcfae69a427d885d148952">copy</a>(const at::BFloat16 *src, at::BFloat16 *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8c36671f882604ae41f214e978ebf04b">element_wise_mul_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae653589cf39f92811f8509363515532d">element_wise_mul_</a>(const Vec4T&lt; at::Half &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5914148b281516a23c9786a11d6675ad">fma_</a>(const Vec4T&lt; at::Half &gt; &amp;a, const float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#af7ca249b197579ed0c1e65179d406b92">fma_</a>(const Vec4T&lt; float &gt; &amp;a, const float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b">load</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55">load</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5">load</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#afaf3bc4be251007b23417bf53b8223db">load</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">load</a>(const uint8_t *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">mul_</a>(float scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ac1717b1a00b76b3d368982629c5e8287">store</a>(at::Half *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a8513259b78c1bcc3e849beea82b95edd">store</a>(at::BFloat16 *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a156eebe566e80706636626c60d2d13b0">store</a>(float *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a42f2f5c890748268ece0df580bbafa44">store</a>(double *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a85854690aa7af9f8006cf54d577d8e77">store</a>(uint8_t *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118">Vec4T</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919">Vec4T</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65">Vec4T</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html
new file mode 100644
index 000000000..80fc29153
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html
@@ -0,0 +1,696 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4T&lt; at::BFloat16 &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4.html">Vec4T&lt; at::BFloat16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_b_float16_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4T&lt; at::BFloat16 &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a2cd51fbd0d3886a28acea0b4f47ca118" name="a2cd51fbd0d3886a28acea0b4f47ca118"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cd51fbd0d3886a28acea0b4f47ca118">&#9670;&#160;</a></span>Vec4T() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e80eaeff7fa50dc31b3426b7cbdf919" name="a6e80eaeff7fa50dc31b3426b7cbdf919"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e80eaeff7fa50dc31b3426b7cbdf919">&#9670;&#160;</a></span>Vec4T() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5567e55ab954640ee5bb6204c4fcf75b" name="a5567e55ab954640ee5bb6204c4fcf75b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5567e55ab954640ee5bb6204c4fcf75b">&#9670;&#160;</a></span>Vec4T() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae39dfa9a228f8ce23816438c9bdab827" name="ae39dfa9a228f8ce23816438c9bdab827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae39dfa9a228f8ce23816438c9bdab827">&#9670;&#160;</a></span>Vec4T() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adadc08c2f27a9f6dfa8993ec8948cc65" name="adadc08c2f27a9f6dfa8993ec8948cc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adadc08c2f27a9f6dfa8993ec8948cc65">&#9670;&#160;</a></span>Vec4T() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3f8a7e8e00c59205f3b32b345290922b" name="a3f8a7e8e00c59205f3b32b345290922b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f8a7e8e00c59205f3b32b345290922b">&#9670;&#160;</a></span>add_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3cbc396133203521c050935239eebe2" name="af3cbc396133203521c050935239eebe2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3cbc396133203521c050935239eebe2">&#9670;&#160;</a></span>add_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a140a9bcb80dcfae69a427d885d148952" name="a140a9bcb80dcfae69a427d885d148952"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a140a9bcb80dcfae69a427d885d148952">&#9670;&#160;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae653589cf39f92811f8509363515532d" name="ae653589cf39f92811f8509363515532d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae653589cf39f92811f8509363515532d">&#9670;&#160;</a></span>element_wise_mul_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c36671f882604ae41f214e978ebf04b" name="a8c36671f882604ae41f214e978ebf04b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c36671f882604ae41f214e978ebf04b">&#9670;&#160;</a></span>element_wise_mul_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5914148b281516a23c9786a11d6675ad" name="a5914148b281516a23c9786a11d6675ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5914148b281516a23c9786a11d6675ad">&#9670;&#160;</a></span>fma_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7ca249b197579ed0c1e65179d406b92" name="af7ca249b197579ed0c1e65179d406b92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7ca249b197579ed0c1e65179d406b92">&#9670;&#160;</a></span>fma_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad96458a9ac1be72cc29c0963bf9fcb5b" name="ad96458a9ac1be72cc29c0963bf9fcb5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad96458a9ac1be72cc29c0963bf9fcb5b">&#9670;&#160;</a></span>load() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a766fc3e4e85cfdbab24e0ba390db0d55" name="a766fc3e4e85cfdbab24e0ba390db0d55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a766fc3e4e85cfdbab24e0ba390db0d55">&#9670;&#160;</a></span>load() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afaf3bc4be251007b23417bf53b8223db" name="afaf3bc4be251007b23417bf53b8223db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afaf3bc4be251007b23417bf53b8223db">&#9670;&#160;</a></span>load() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a858ccf060c9cb3af78e60a04c7104ff5" name="a858ccf060c9cb3af78e60a04c7104ff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a858ccf060c9cb3af78e60a04c7104ff5">&#9670;&#160;</a></span>load() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f38e7787afcaf85c132d3b7e47ab70f" name="a9f38e7787afcaf85c132d3b7e47ab70f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f38e7787afcaf85c132d3b7e47ab70f">&#9670;&#160;</a></span>load() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aacd3ba9c4686c00921e3e2dcc754b000" name="aacd3ba9c4686c00921e3e2dcc754b000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacd3ba9c4686c00921e3e2dcc754b000">&#9670;&#160;</a></span>mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>scale</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8513259b78c1bcc3e849beea82b95edd" name="a8513259b78c1bcc3e849beea82b95edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8513259b78c1bcc3e849beea82b95edd">&#9670;&#160;</a></span>store() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac1717b1a00b76b3d368982629c5e8287" name="ac1717b1a00b76b3d368982629c5e8287"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac1717b1a00b76b3d368982629c5e8287">&#9670;&#160;</a></span>store() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a42f2f5c890748268ece0df580bbafa44" name="a42f2f5c890748268ece0df580bbafa44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42f2f5c890748268ece0df580bbafa44">&#9670;&#160;</a></span>store() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a156eebe566e80706636626c60d2d13b0" name="a156eebe566e80706636626c60d2d13b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a156eebe566e80706636626c60d2d13b0">&#9670;&#160;</a></span>store() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85854690aa7af9f8006cf54d577d8e77" name="a85854690aa7af9f8006cf54d577d8e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85854690aa7af9f8006cf54d577d8e77">&#9670;&#160;</a></span>store() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af700a6ab2d3b94e74f6a387b1adebdc6" name="af700a6ab2d3b94e74f6a387b1adebdc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af700a6ab2d3b94e74f6a387b1adebdc6">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4-members.html b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4-members.html
new file mode 100644
index 000000000..ba166c2a6
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4-members.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4T&lt; at::Half &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af3cbc396133203521c050935239eebe2">add_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a3f8a7e8e00c59205f3b32b345290922b">add_</a>(const Vec4T&lt; at::Half &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad6a7665bbc9596b7b9123c9a0605fe1c">copy</a>(const at::Half *src, at::Half *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8c36671f882604ae41f214e978ebf04b">element_wise_mul_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae653589cf39f92811f8509363515532d">element_wise_mul_</a>(const Vec4T&lt; at::Half &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5914148b281516a23c9786a11d6675ad">fma_</a>(const Vec4T&lt; at::Half &gt; &amp;a, const float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#af7ca249b197579ed0c1e65179d406b92">fma_</a>(const Vec4T&lt; float &gt; &amp;a, const float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55">load</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b">load</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5">load</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#afaf3bc4be251007b23417bf53b8223db">load</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">load</a>(const uint8_t *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">mul_</a>(float scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ac1717b1a00b76b3d368982629c5e8287">store</a>(at::Half *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a8513259b78c1bcc3e849beea82b95edd">store</a>(at::BFloat16 *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a156eebe566e80706636626c60d2d13b0">store</a>(float *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a42f2f5c890748268ece0df580bbafa44">store</a>(double *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a85854690aa7af9f8006cf54d577d8e77">store</a>(uint8_t *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118">Vec4T</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919">Vec4T</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65">Vec4T</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html
new file mode 100644
index 000000000..43c08b7f2
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html
@@ -0,0 +1,696 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4T&lt; at::Half &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4.html">Vec4T&lt; at::Half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01at_1_1_half_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4T&lt; at::Half &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a2cd51fbd0d3886a28acea0b4f47ca118" name="a2cd51fbd0d3886a28acea0b4f47ca118"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cd51fbd0d3886a28acea0b4f47ca118">&#9670;&#160;</a></span>Vec4T() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5567e55ab954640ee5bb6204c4fcf75b" name="a5567e55ab954640ee5bb6204c4fcf75b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5567e55ab954640ee5bb6204c4fcf75b">&#9670;&#160;</a></span>Vec4T() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e80eaeff7fa50dc31b3426b7cbdf919" name="a6e80eaeff7fa50dc31b3426b7cbdf919"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e80eaeff7fa50dc31b3426b7cbdf919">&#9670;&#160;</a></span>Vec4T() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae39dfa9a228f8ce23816438c9bdab827" name="ae39dfa9a228f8ce23816438c9bdab827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae39dfa9a228f8ce23816438c9bdab827">&#9670;&#160;</a></span>Vec4T() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adadc08c2f27a9f6dfa8993ec8948cc65" name="adadc08c2f27a9f6dfa8993ec8948cc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adadc08c2f27a9f6dfa8993ec8948cc65">&#9670;&#160;</a></span>Vec4T() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3f8a7e8e00c59205f3b32b345290922b" name="a3f8a7e8e00c59205f3b32b345290922b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f8a7e8e00c59205f3b32b345290922b">&#9670;&#160;</a></span>add_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af3cbc396133203521c050935239eebe2" name="af3cbc396133203521c050935239eebe2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3cbc396133203521c050935239eebe2">&#9670;&#160;</a></span>add_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6a7665bbc9596b7b9123c9a0605fe1c" name="ad6a7665bbc9596b7b9123c9a0605fe1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6a7665bbc9596b7b9123c9a0605fe1c">&#9670;&#160;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae653589cf39f92811f8509363515532d" name="ae653589cf39f92811f8509363515532d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae653589cf39f92811f8509363515532d">&#9670;&#160;</a></span>element_wise_mul_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c36671f882604ae41f214e978ebf04b" name="a8c36671f882604ae41f214e978ebf04b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c36671f882604ae41f214e978ebf04b">&#9670;&#160;</a></span>element_wise_mul_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5914148b281516a23c9786a11d6675ad" name="a5914148b281516a23c9786a11d6675ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5914148b281516a23c9786a11d6675ad">&#9670;&#160;</a></span>fma_() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; at::Half &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7ca249b197579ed0c1e65179d406b92" name="af7ca249b197579ed0c1e65179d406b92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7ca249b197579ed0c1e65179d406b92">&#9670;&#160;</a></span>fma_() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad96458a9ac1be72cc29c0963bf9fcb5b" name="ad96458a9ac1be72cc29c0963bf9fcb5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad96458a9ac1be72cc29c0963bf9fcb5b">&#9670;&#160;</a></span>load() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a766fc3e4e85cfdbab24e0ba390db0d55" name="a766fc3e4e85cfdbab24e0ba390db0d55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a766fc3e4e85cfdbab24e0ba390db0d55">&#9670;&#160;</a></span>load() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afaf3bc4be251007b23417bf53b8223db" name="afaf3bc4be251007b23417bf53b8223db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afaf3bc4be251007b23417bf53b8223db">&#9670;&#160;</a></span>load() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a858ccf060c9cb3af78e60a04c7104ff5" name="a858ccf060c9cb3af78e60a04c7104ff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a858ccf060c9cb3af78e60a04c7104ff5">&#9670;&#160;</a></span>load() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f38e7787afcaf85c132d3b7e47ab70f" name="a9f38e7787afcaf85c132d3b7e47ab70f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f38e7787afcaf85c132d3b7e47ab70f">&#9670;&#160;</a></span>load() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aacd3ba9c4686c00921e3e2dcc754b000" name="aacd3ba9c4686c00921e3e2dcc754b000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacd3ba9c4686c00921e3e2dcc754b000">&#9670;&#160;</a></span>mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>scale</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8513259b78c1bcc3e849beea82b95edd" name="a8513259b78c1bcc3e849beea82b95edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8513259b78c1bcc3e849beea82b95edd">&#9670;&#160;</a></span>store() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac1717b1a00b76b3d368982629c5e8287" name="ac1717b1a00b76b3d368982629c5e8287"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac1717b1a00b76b3d368982629c5e8287">&#9670;&#160;</a></span>store() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a42f2f5c890748268ece0df580bbafa44" name="a42f2f5c890748268ece0df580bbafa44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42f2f5c890748268ece0df580bbafa44">&#9670;&#160;</a></span>store() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a156eebe566e80706636626c60d2d13b0" name="a156eebe566e80706636626c60d2d13b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a156eebe566e80706636626c60d2d13b0">&#9670;&#160;</a></span>store() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85854690aa7af9f8006cf54d577d8e77" name="a85854690aa7af9f8006cf54d577d8e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85854690aa7af9f8006cf54d577d8e77">&#9670;&#160;</a></span>store() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af700a6ab2d3b94e74f6a387b1adebdc6" name="af700a6ab2d3b94e74f6a387b1adebdc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af700a6ab2d3b94e74f6a387b1adebdc6">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4-members.html b/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4-members.html
new file mode 100644
index 000000000..a0fee38dd
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4-members.html
@@ -0,0 +1,110 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4T&lt; double &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#accb1990c79cc9a9c3ca84d635d589ca4">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae0cdda7691531bfb7975dad742ff3984">add_</a>(const Vec4T&lt; double &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8af22674533453883301576ae485699c">copy</a>(const double *src, double *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a077873e0dd3516731c2302c7b3dee475">element_wise_mul_</a>(const Vec4T&lt; double &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a935586b35f2e7d90ec234784a8a5d2b8">fma_</a>(const Vec4T&lt; double &gt; &amp;a, const double b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55">load</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b">load</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5">load</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">load</a>(const uint8_t *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#afaf3bc4be251007b23417bf53b8223db">load</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">mul_</a>(float scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a42f2f5c890748268ece0df580bbafa44">store</a>(double *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a156eebe566e80706636626c60d2d13b0">store</a>(float *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ac1717b1a00b76b3d368982629c5e8287">store</a>(at::Half *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a8513259b78c1bcc3e849beea82b95edd">store</a>(at::BFloat16 *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118">Vec4T</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919">Vec4T</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65">Vec4T</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html b/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html
new file mode 100644
index 000000000..b46910f40
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html
@@ -0,0 +1,592 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4T&lt; double &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4.html">Vec4T&lt; double &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01double_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4T&lt; double &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a2cd51fbd0d3886a28acea0b4f47ca118" name="a2cd51fbd0d3886a28acea0b4f47ca118"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cd51fbd0d3886a28acea0b4f47ca118">&#9670;&#160;</a></span>Vec4T() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5567e55ab954640ee5bb6204c4fcf75b" name="a5567e55ab954640ee5bb6204c4fcf75b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5567e55ab954640ee5bb6204c4fcf75b">&#9670;&#160;</a></span>Vec4T() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e80eaeff7fa50dc31b3426b7cbdf919" name="a6e80eaeff7fa50dc31b3426b7cbdf919"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e80eaeff7fa50dc31b3426b7cbdf919">&#9670;&#160;</a></span>Vec4T() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae39dfa9a228f8ce23816438c9bdab827" name="ae39dfa9a228f8ce23816438c9bdab827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae39dfa9a228f8ce23816438c9bdab827">&#9670;&#160;</a></span>Vec4T() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adadc08c2f27a9f6dfa8993ec8948cc65" name="adadc08c2f27a9f6dfa8993ec8948cc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adadc08c2f27a9f6dfa8993ec8948cc65">&#9670;&#160;</a></span>Vec4T() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae0cdda7691531bfb7975dad742ff3984" name="ae0cdda7691531bfb7975dad742ff3984"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0cdda7691531bfb7975dad742ff3984">&#9670;&#160;</a></span>add_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8af22674533453883301576ae485699c" name="a8af22674533453883301576ae485699c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8af22674533453883301576ae485699c">&#9670;&#160;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a077873e0dd3516731c2302c7b3dee475" name="a077873e0dd3516731c2302c7b3dee475"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a077873e0dd3516731c2302c7b3dee475">&#9670;&#160;</a></span>element_wise_mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a935586b35f2e7d90ec234784a8a5d2b8" name="a935586b35f2e7d90ec234784a8a5d2b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a935586b35f2e7d90ec234784a8a5d2b8">&#9670;&#160;</a></span>fma_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad96458a9ac1be72cc29c0963bf9fcb5b" name="ad96458a9ac1be72cc29c0963bf9fcb5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad96458a9ac1be72cc29c0963bf9fcb5b">&#9670;&#160;</a></span>load() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a766fc3e4e85cfdbab24e0ba390db0d55" name="a766fc3e4e85cfdbab24e0ba390db0d55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a766fc3e4e85cfdbab24e0ba390db0d55">&#9670;&#160;</a></span>load() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afaf3bc4be251007b23417bf53b8223db" name="afaf3bc4be251007b23417bf53b8223db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afaf3bc4be251007b23417bf53b8223db">&#9670;&#160;</a></span>load() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a858ccf060c9cb3af78e60a04c7104ff5" name="a858ccf060c9cb3af78e60a04c7104ff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a858ccf060c9cb3af78e60a04c7104ff5">&#9670;&#160;</a></span>load() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f38e7787afcaf85c132d3b7e47ab70f" name="a9f38e7787afcaf85c132d3b7e47ab70f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f38e7787afcaf85c132d3b7e47ab70f">&#9670;&#160;</a></span>load() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aacd3ba9c4686c00921e3e2dcc754b000" name="aacd3ba9c4686c00921e3e2dcc754b000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacd3ba9c4686c00921e3e2dcc754b000">&#9670;&#160;</a></span>mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>scale</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8513259b78c1bcc3e849beea82b95edd" name="a8513259b78c1bcc3e849beea82b95edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8513259b78c1bcc3e849beea82b95edd">&#9670;&#160;</a></span>store() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac1717b1a00b76b3d368982629c5e8287" name="ac1717b1a00b76b3d368982629c5e8287"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac1717b1a00b76b3d368982629c5e8287">&#9670;&#160;</a></span>store() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a42f2f5c890748268ece0df580bbafa44" name="a42f2f5c890748268ece0df580bbafa44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42f2f5c890748268ece0df580bbafa44">&#9670;&#160;</a></span>store() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a156eebe566e80706636626c60d2d13b0" name="a156eebe566e80706636626c60d2d13b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a156eebe566e80706636626c60d2d13b0">&#9670;&#160;</a></span>store() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="accb1990c79cc9a9c3ca84d635d589ca4" name="accb1990c79cc9a9c3ca84d635d589ca4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#accb1990c79cc9a9c3ca84d635d589ca4">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4-members.html b/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4-members.html
new file mode 100644
index 000000000..ea78fb9be
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4-members.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">Vec4T&lt; float &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af3cbc396133203521c050935239eebe2">add_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aa3322732b0a44cf924b89a066f4503d4">copy</a>(const float *src, float *dst)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8c36671f882604ae41f214e978ebf04b">element_wise_mul_</a>(const Vec4T&lt; float &gt; &amp;a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#af7ca249b197579ed0c1e65179d406b92">fma_</a>(const Vec4T&lt; float &gt; &amp;a, const float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a858ccf060c9cb3af78e60a04c7104ff5">load</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#afaf3bc4be251007b23417bf53b8223db">load</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a766fc3e4e85cfdbab24e0ba390db0d55">load</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ad96458a9ac1be72cc29c0963bf9fcb5b">load</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a9f38e7787afcaf85c132d3b7e47ab70f">load</a>(const uint8_t *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#aacd3ba9c4686c00921e3e2dcc754b000">mul_</a>(float scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a156eebe566e80706636626c60d2d13b0">store</a>(float *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ab31e8852ca6760cf83d6356c8c448596">store</a>(float4 *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ac1717b1a00b76b3d368982629c5e8287">store</a>(at::Half *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a8513259b78c1bcc3e849beea82b95edd">store</a>(at::BFloat16 *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a42f2f5c890748268ece0df580bbafa44">store</a>(double *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a85854690aa7af9f8006cf54d577d8e77">store</a>(uint8_t *p) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a2cd51fbd0d3886a28acea0b4f47ca118">Vec4T</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#ae39dfa9a228f8ce23816438c9bdab827">Vec4T</a>(const float *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#adadc08c2f27a9f6dfa8993ec8948cc65">Vec4T</a>(const double *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a5567e55ab954640ee5bb6204c4fcf75b">Vec4T</a>(const at::Half *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html#a6e80eaeff7fa50dc31b3426b7cbdf919">Vec4T</a>(const at::BFloat16 *p)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html b/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html
new file mode 100644
index 000000000..d00d48a11
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html
@@ -0,0 +1,642 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Vec4T&lt; float &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4.html">Vec4T&lt; float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec4_t_3_01float_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">Vec4T&lt; float &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a2cd51fbd0d3886a28acea0b4f47ca118" name="a2cd51fbd0d3886a28acea0b4f47ca118"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cd51fbd0d3886a28acea0b4f47ca118">&#9670;&#160;</a></span>Vec4T() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae39dfa9a228f8ce23816438c9bdab827" name="ae39dfa9a228f8ce23816438c9bdab827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae39dfa9a228f8ce23816438c9bdab827">&#9670;&#160;</a></span>Vec4T() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adadc08c2f27a9f6dfa8993ec8948cc65" name="adadc08c2f27a9f6dfa8993ec8948cc65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adadc08c2f27a9f6dfa8993ec8948cc65">&#9670;&#160;</a></span>Vec4T() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5567e55ab954640ee5bb6204c4fcf75b" name="a5567e55ab954640ee5bb6204c4fcf75b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5567e55ab954640ee5bb6204c4fcf75b">&#9670;&#160;</a></span>Vec4T() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e80eaeff7fa50dc31b3426b7cbdf919" name="a6e80eaeff7fa50dc31b3426b7cbdf919"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e80eaeff7fa50dc31b3426b7cbdf919">&#9670;&#160;</a></span>Vec4T() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="af3cbc396133203521c050935239eebe2" name="af3cbc396133203521c050935239eebe2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3cbc396133203521c050935239eebe2">&#9670;&#160;</a></span>add_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa3322732b0a44cf924b89a066f4503d4" name="aa3322732b0a44cf924b89a066f4503d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3322732b0a44cf924b89a066f4503d4">&#9670;&#160;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">static</a> <a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>dst</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c36671f882604ae41f214e978ebf04b" name="a8c36671f882604ae41f214e978ebf04b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c36671f882604ae41f214e978ebf04b">&#9670;&#160;</a></span>element_wise_mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> element_wise_mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7ca249b197579ed0c1e65179d406b92" name="af7ca249b197579ed0c1e65179d406b92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7ca249b197579ed0c1e65179d406b92">&#9670;&#160;</a></span>fma_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad96458a9ac1be72cc29c0963bf9fcb5b" name="ad96458a9ac1be72cc29c0963bf9fcb5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad96458a9ac1be72cc29c0963bf9fcb5b">&#9670;&#160;</a></span>load() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a766fc3e4e85cfdbab24e0ba390db0d55" name="a766fc3e4e85cfdbab24e0ba390db0d55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a766fc3e4e85cfdbab24e0ba390db0d55">&#9670;&#160;</a></span>load() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afaf3bc4be251007b23417bf53b8223db" name="afaf3bc4be251007b23417bf53b8223db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afaf3bc4be251007b23417bf53b8223db">&#9670;&#160;</a></span>load() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a858ccf060c9cb3af78e60a04c7104ff5" name="a858ccf060c9cb3af78e60a04c7104ff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a858ccf060c9cb3af78e60a04c7104ff5">&#9670;&#160;</a></span>load() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f38e7787afcaf85c132d3b7e47ab70f" name="a9f38e7787afcaf85c132d3b7e47ab70f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f38e7787afcaf85c132d3b7e47ab70f">&#9670;&#160;</a></span>load() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aacd3ba9c4686c00921e3e2dcc754b000" name="aacd3ba9c4686c00921e3e2dcc754b000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacd3ba9c4686c00921e3e2dcc754b000">&#9670;&#160;</a></span>mul_()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul_ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>scale</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8513259b78c1bcc3e849beea82b95edd" name="a8513259b78c1bcc3e849beea82b95edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8513259b78c1bcc3e849beea82b95edd">&#9670;&#160;</a></span>store() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac1717b1a00b76b3d368982629c5e8287" name="ac1717b1a00b76b3d368982629c5e8287"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac1717b1a00b76b3d368982629c5e8287">&#9670;&#160;</a></span>store() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a42f2f5c890748268ece0df580bbafa44" name="a42f2f5c890748268ece0df580bbafa44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42f2f5c890748268ece0df580bbafa44">&#9670;&#160;</a></span>store() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a156eebe566e80706636626c60d2d13b0" name="a156eebe566e80706636626c60d2d13b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a156eebe566e80706636626c60d2d13b0">&#9670;&#160;</a></span>store() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab31e8852ca6760cf83d6356c8c448596" name="ab31e8852ca6760cf83d6356c8c448596"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab31e8852ca6760cf83d6356c8c448596">&#9670;&#160;</a></span>store() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a85854690aa7af9f8006cf54d577d8e77" name="a85854690aa7af9f8006cf54d577d8e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85854690aa7af9f8006cf54d577d8e77">&#9670;&#160;</a></span>store() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>p</em></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af700a6ab2d3b94e74f6a387b1adebdc6" name="af700a6ab2d3b94e74f6a387b1adebdc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af700a6ab2d3b94e74f6a387b1adebdc6">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t.html b/structfbgemm__gpu_1_1_vec_n_t.html
new file mode 100644
index 000000000..bd7d1329f
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t.html
@@ -0,0 +1,90 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; N, PrimitiveType &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; N, PrimitiveType &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4-members.html
new file mode 100644
index 000000000..ed0747d60
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 16, PrimitiveType::INT &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f332e6824c0bf94b367c027c6c91595">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">add</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">fma</a>(uint32_t v, half2 shift_scale, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a82b07f279fccc086af2208ca7d6d1a3a">store</a>(float *output_ptr, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a1f25b384b68cdb93ddd010a86f661460">store</a>(at::Half *output_ptr, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aa9b6e7a0e81a3a3d049e7c632fec2ad7">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a0d5c2181816bdbb6e5e4998b3fbba721">store</a>(uint8_t *output_ptr, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a23eb49aef842e89c0f4403d45df27af9">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a483f290add1c81ba850fda8c574f68bb">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#a9b3adeaa52d595467e06b90520c9708a">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#aba368627faa071e57a548a336c7bee6b">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=16)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94">VecNT</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html
new file mode 100644
index 000000000..5c87a2896
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html
@@ -0,0 +1,503 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 16, PrimitiveType::INT &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 16, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_0116_00_01_primitive_type_1_1_i_n_t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 16, PrimitiveType::INT &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7d39695d99328f4f6e8faf36a115e94" name="af7d39695d99328f4f6e8faf36a115e94"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7d39695d99328f4f6e8faf36a115e94">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a4909df6d879ffbb0e234114609ce3000" name="a4909df6d879ffbb0e234114609ce3000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4909df6d879ffbb0e234114609ce3000">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3198b30904d0e23bf46c12eabf628e9e" name="a3198b30904d0e23bf46c12eabf628e9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3198b30904d0e23bf46c12eabf628e9e">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa9b6e7a0e81a3a3d049e7c632fec2ad7" name="aa9b6e7a0e81a3a3d049e7c632fec2ad7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9b6e7a0e81a3a3d049e7c632fec2ad7">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba368627faa071e57a548a336c7bee6b" name="aba368627faa071e57a548a336c7bee6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba368627faa071e57a548a336c7bee6b">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9b3adeaa52d595467e06b90520c9708a" name="a9b3adeaa52d595467e06b90520c9708a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b3adeaa52d595467e06b90520c9708a">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f25b384b68cdb93ddd010a86f661460" name="a1f25b384b68cdb93ddd010a86f661460"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f25b384b68cdb93ddd010a86f661460">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a483f290add1c81ba850fda8c574f68bb" name="a483f290add1c81ba850fda8c574f68bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a483f290add1c81ba850fda8c574f68bb">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a82b07f279fccc086af2208ca7d6d1a3a" name="a82b07f279fccc086af2208ca7d6d1a3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82b07f279fccc086af2208ca7d6d1a3a">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23eb49aef842e89c0f4403d45df27af9" name="a23eb49aef842e89c0f4403d45df27af9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23eb49aef842e89c0f4403d45df27af9">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d5c2181816bdbb6e5e4998b3fbba721" name="a0d5c2181816bdbb6e5e4998b3fbba721"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d5c2181816bdbb6e5e4998b3fbba721">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">16</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a1f332e6824c0bf94b367c027c6c91595" name="a1f332e6824c0bf94b367c027c6c91595"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f332e6824c0bf94b367c027c6c91595">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float_16</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4-members.html
new file mode 100644
index 000000000..be1046977
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 1, PrimitiveType::FP &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ae7a59aea3ae02e7c3c40b93e77208b3a">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a3421b900475f40701fb4c0c1c542744c">add</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ad5c1e8194ecc27d73fb5477bc6795df8">fma</a>(float a, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a8191536a88223b7249cae8a8cfa97979">store</a>(float *output_ptr, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab9651b6b0e85a41131aa086c367d68bd">store</a>(at::Half *output_ptr, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a0624585ab8592b64edef7a6730938cb9">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a5ba7b1dad5adec8ae5dc9e4adfe58c38">store</a>(uint8_t *output_ptr, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ab208ce429674113143ee02d6b9e8a9be">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac87524a86f8aa165742c6b793f8fe6aa">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a26ce31b610926ff405b67dc540ff3d95">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#a392a5b352be9af9ba86e0cd396e6316a">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=1)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html#ac774386ebb8ac7021a221b0d32041e40">VecNT</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html
new file mode 100644
index 000000000..ff5f1cfaf
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html
@@ -0,0 +1,490 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 1, PrimitiveType::FP &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 1, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_011_00_01_primitive_type_1_1_f_p_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 1, PrimitiveType::FP &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac774386ebb8ac7021a221b0d32041e40" name="ac774386ebb8ac7021a221b0d32041e40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac774386ebb8ac7021a221b0d32041e40">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3421b900475f40701fb4c0c1c542744c" name="a3421b900475f40701fb4c0c1c542744c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3421b900475f40701fb4c0c1c542744c">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad5c1e8194ecc27d73fb5477bc6795df8" name="ad5c1e8194ecc27d73fb5477bc6795df8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5c1e8194ecc27d73fb5477bc6795df8">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0624585ab8592b64edef7a6730938cb9" name="a0624585ab8592b64edef7a6730938cb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0624585ab8592b64edef7a6730938cb9">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a392a5b352be9af9ba86e0cd396e6316a" name="a392a5b352be9af9ba86e0cd396e6316a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a392a5b352be9af9ba86e0cd396e6316a">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26ce31b610926ff405b67dc540ff3d95" name="a26ce31b610926ff405b67dc540ff3d95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26ce31b610926ff405b67dc540ff3d95">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab9651b6b0e85a41131aa086c367d68bd" name="ab9651b6b0e85a41131aa086c367d68bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab9651b6b0e85a41131aa086c367d68bd">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac87524a86f8aa165742c6b793f8fe6aa" name="ac87524a86f8aa165742c6b793f8fe6aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac87524a86f8aa165742c6b793f8fe6aa">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8191536a88223b7249cae8a8cfa97979" name="a8191536a88223b7249cae8a8cfa97979"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8191536a88223b7249cae8a8cfa97979">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab208ce429674113143ee02d6b9e8a9be" name="ab208ce429674113143ee02d6b9e8a9be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab208ce429674113143ee02d6b9e8a9be">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ba7b1dad5adec8ae5dc9e4adfe58c38" name="a5ba7b1dad5adec8ae5dc9e4adfe58c38"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ba7b1dad5adec8ae5dc9e4adfe58c38">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">1</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ae7a59aea3ae02e7c3c40b93e77208b3a" name="ae7a59aea3ae02e7c3c40b93e77208b3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae7a59aea3ae02e7c3c40b93e77208b3a">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4-members.html
new file mode 100644
index 000000000..40170c94f
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 2, PrimitiveType::FP &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af835160660d81c33fb2f1f42017452fb">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a5686a6ec8884ddf2ad633d735d181011">add</a>(half2 a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af82504393e0e09a157a40980598f626b">fma</a>(half2 a, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a4699624d6b086fa52d88ce1960dc7297">store</a>(float *output_ptr, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a1f0743afcc39c1afeeee6cd9bcdddc35">store</a>(at::Half *output_ptr, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a2c56bff3020a6b803a8310a13b61cfbe">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#ac4e67ed3ba860166333a7805b101490d">store</a>(uint8_t *output_ptr, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a0c562343c84b60da0e5f11ee16e593f2">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a68c214376e86167cbe59755a1caf99a5">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a9e2e827bb7e7c608f3acd3953a39e720">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a32f2acc26afe1a9cf7d5152567bbd15d">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=2)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html#a762e9c277918a40b3e1577984507b77d">VecNT</a>(half2 a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html
new file mode 100644
index 000000000..47fc5a0d2
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html
@@ -0,0 +1,490 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 2, PrimitiveType::FP &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 2, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_012_00_01_primitive_type_1_1_f_p_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 2, PrimitiveType::FP &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a762e9c277918a40b3e1577984507b77d" name="a762e9c277918a40b3e1577984507b77d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a762e9c277918a40b3e1577984507b77d">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a5686a6ec8884ddf2ad633d735d181011" name="a5686a6ec8884ddf2ad633d735d181011"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5686a6ec8884ddf2ad633d735d181011">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af82504393e0e09a157a40980598f626b" name="af82504393e0e09a157a40980598f626b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af82504393e0e09a157a40980598f626b">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>a</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2c56bff3020a6b803a8310a13b61cfbe" name="a2c56bff3020a6b803a8310a13b61cfbe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2c56bff3020a6b803a8310a13b61cfbe">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a32f2acc26afe1a9cf7d5152567bbd15d" name="a32f2acc26afe1a9cf7d5152567bbd15d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32f2acc26afe1a9cf7d5152567bbd15d">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e2e827bb7e7c608f3acd3953a39e720" name="a9e2e827bb7e7c608f3acd3953a39e720"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e2e827bb7e7c608f3acd3953a39e720">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f0743afcc39c1afeeee6cd9bcdddc35" name="a1f0743afcc39c1afeeee6cd9bcdddc35"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f0743afcc39c1afeeee6cd9bcdddc35">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a68c214376e86167cbe59755a1caf99a5" name="a68c214376e86167cbe59755a1caf99a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68c214376e86167cbe59755a1caf99a5">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4699624d6b086fa52d88ce1960dc7297" name="a4699624d6b086fa52d88ce1960dc7297"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4699624d6b086fa52d88ce1960dc7297">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0c562343c84b60da0e5f11ee16e593f2" name="a0c562343c84b60da0e5f11ee16e593f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c562343c84b60da0e5f11ee16e593f2">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4e67ed3ba860166333a7805b101490d" name="ac4e67ed3ba860166333a7805b101490d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4e67ed3ba860166333a7805b101490d">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">2</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af835160660d81c33fb2f1f42017452fb" name="af835160660d81c33fb2f1f42017452fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af835160660d81c33fb2f1f42017452fb">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4-members.html
new file mode 100644
index 000000000..de9730152
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 4, PrimitiveType::FP &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ac26f750f3fa72d8b137026cc8726972f">add</a>(uint32_t v, int exp_bits, int exp_bias)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad3b821b9b1862e7970a798dcc105dce8">fma</a>(uint32_t v, int exp_bits, int exp_bias, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a75cd31fa56a77c83611b64ddd370a562">store</a>(float *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a81504bf4294b938a3efc8d00acda3b5f">store</a>(at::Half *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ad15c2605b8d982986100c89caa7c0401">store</a>(uint8_t *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a786f9130a8df81af5fc3b0706a1a6545">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#afbc2050eefc2350fd0f84db8dd568d14">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#a6740fe48ec591c6058b8c5019ca0b599">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html#ae4b5f2ee834300f0c91a1e1f247b56a5">VecNT</a>(uint32_t v, const int exp_bits, const int exp_bias)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html
new file mode 100644
index 000000000..ff1a224f5
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html
@@ -0,0 +1,518 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 4, PrimitiveType::FP &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4.html">VecNT&lt; 4, PrimitiveType::FP &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_f_p_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 4, PrimitiveType::FP &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae4b5f2ee834300f0c91a1e1f247b56a5" name="ae4b5f2ee834300f0c91a1e1f247b56a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4b5f2ee834300f0c91a1e1f247b56a5">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ac26f750f3fa72d8b137026cc8726972f" name="ac26f750f3fa72d8b137026cc8726972f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac26f750f3fa72d8b137026cc8726972f">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad3b821b9b1862e7970a798dcc105dce8" name="ad3b821b9b1862e7970a798dcc105dce8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad3b821b9b1862e7970a798dcc105dce8">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>exp_bias</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03b4a86f4326d9c24fec2b4dc63439cd" name="a03b4a86f4326d9c24fec2b4dc63439cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03b4a86f4326d9c24fec2b4dc63439cd">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6740fe48ec591c6058b8c5019ca0b599" name="a6740fe48ec591c6058b8c5019ca0b599"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6740fe48ec591c6058b8c5019ca0b599">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12b87408afdd840ed3ae2e1870fa8e2a" name="a12b87408afdd840ed3ae2e1870fa8e2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12b87408afdd840ed3ae2e1870fa8e2a">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81504bf4294b938a3efc8d00acda3b5f" name="a81504bf4294b938a3efc8d00acda3b5f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81504bf4294b938a3efc8d00acda3b5f">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbc2050eefc2350fd0f84db8dd568d14" name="afbc2050eefc2350fd0f84db8dd568d14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbc2050eefc2350fd0f84db8dd568d14">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a75cd31fa56a77c83611b64ddd370a562" name="a75cd31fa56a77c83611b64ddd370a562"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a75cd31fa56a77c83611b64ddd370a562">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a786f9130a8df81af5fc3b0706a1a6545" name="a786f9130a8df81af5fc3b0706a1a6545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a786f9130a8df81af5fc3b0706a1a6545">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad15c2605b8d982986100c89caa7c0401" name="ad15c2605b8d982986100c89caa7c0401"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad15c2605b8d982986100c89caa7c0401">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af700a6ab2d3b94e74f6a387b1adebdc6" name="af700a6ab2d3b94e74f6a387b1adebdc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af700a6ab2d3b94e74f6a387b1adebdc6">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4-members.html
new file mode 100644
index 000000000..6598ea5d9
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 4, PrimitiveType::INT &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af700a6ab2d3b94e74f6a387b1adebdc6">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">add</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">fma</a>(uint32_t v, half2 shift_scale, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a75cd31fa56a77c83611b64ddd370a562">store</a>(float *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a81504bf4294b938a3efc8d00acda3b5f">store</a>(at::Half *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a03b4a86f4326d9c24fec2b4dc63439cd">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#ad15c2605b8d982986100c89caa7c0401">store</a>(uint8_t *output_ptr, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a786f9130a8df81af5fc3b0706a1a6545">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#afbc2050eefc2350fd0f84db8dd568d14">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a12b87408afdd840ed3ae2e1870fa8e2a">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#a6740fe48ec591c6058b8c5019ca0b599">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=4)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94">VecNT</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html
new file mode 100644
index 000000000..f46e3219d
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html
@@ -0,0 +1,503 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 4, PrimitiveType::INT &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 4, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_014_00_01_primitive_type_1_1_i_n_t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 4, PrimitiveType::INT &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7d39695d99328f4f6e8faf36a115e94" name="af7d39695d99328f4f6e8faf36a115e94"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7d39695d99328f4f6e8faf36a115e94">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a4909df6d879ffbb0e234114609ce3000" name="a4909df6d879ffbb0e234114609ce3000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4909df6d879ffbb0e234114609ce3000">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3198b30904d0e23bf46c12eabf628e9e" name="a3198b30904d0e23bf46c12eabf628e9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3198b30904d0e23bf46c12eabf628e9e">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03b4a86f4326d9c24fec2b4dc63439cd" name="a03b4a86f4326d9c24fec2b4dc63439cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03b4a86f4326d9c24fec2b4dc63439cd">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6740fe48ec591c6058b8c5019ca0b599" name="a6740fe48ec591c6058b8c5019ca0b599"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6740fe48ec591c6058b8c5019ca0b599">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12b87408afdd840ed3ae2e1870fa8e2a" name="a12b87408afdd840ed3ae2e1870fa8e2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12b87408afdd840ed3ae2e1870fa8e2a">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81504bf4294b938a3efc8d00acda3b5f" name="a81504bf4294b938a3efc8d00acda3b5f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81504bf4294b938a3efc8d00acda3b5f">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afbc2050eefc2350fd0f84db8dd568d14" name="afbc2050eefc2350fd0f84db8dd568d14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbc2050eefc2350fd0f84db8dd568d14">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a75cd31fa56a77c83611b64ddd370a562" name="a75cd31fa56a77c83611b64ddd370a562"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a75cd31fa56a77c83611b64ddd370a562">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a786f9130a8df81af5fc3b0706a1a6545" name="a786f9130a8df81af5fc3b0706a1a6545"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a786f9130a8df81af5fc3b0706a1a6545">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad15c2605b8d982986100c89caa7c0401" name="ad15c2605b8d982986100c89caa7c0401"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad15c2605b8d982986100c89caa7c0401">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">4</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af700a6ab2d3b94e74f6a387b1adebdc6" name="af700a6ab2d3b94e74f6a387b1adebdc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af700a6ab2d3b94e74f6a387b1adebdc6">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float4</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4-members.html b/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4-members.html
new file mode 100644
index 000000000..511273869
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">VecNT&lt; 8, PrimitiveType::INT &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a17543b514b8298a1e94b5671db506366">acc</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a4909df6d879ffbb0e234114609ce3000">add</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a3198b30904d0e23bf46c12eabf628e9e">fma</a>(uint32_t v, half2 shift_scale, float b)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a16f1fffe0b09a20da784cd647d11bf28">mul</a>(float a)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#acf9a6b5f9ac186a75bd50800993e7241">store</a>(float *output_ptr, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa231a6e5c1ad91305125e2ba8c6cf773">store</a>(at::Half *output_ptr, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa2d60424caff50f6d80adfcd1ab5ba3f">store</a>(at::BFloat16 *output_ptr, const int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a5881b8e1b9ca2c81640bad8e6d0a455a">store</a>(uint8_t *output_ptr, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aa7c2038d0448a12c5edd87eb31f8b828">store</a>(uint8_t *output_ptr, float2 qparams, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#abfaf6f8618474ccb25d58d723792421d">store</a>(float *output_ptr, float2 qparams, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#aad5d604b72b0f656dbeb5e313ebf63af">store</a>(at::Half *output_ptr, float2 qparams, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#a6dfa84a3eb11e20e68d8d3b401c7d2cf">store</a>(at::BFloat16 *output_ptr, float2 qparams, int num_valid_outputs=8)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af44b6695d2ac77093130f394c322417d">VecNT</a>()</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html#af7d39695d99328f4f6e8faf36a115e94">VecNT</a>(uint32_t v, half2 shift_scale)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html b/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html
new file mode 100644
index 000000000..8ee10e84d
--- /dev/null
+++ b/structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html
@@ -0,0 +1,503 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: VecNT&lt; 8, PrimitiveType::INT &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4.html">VecNT&lt; 8, PrimitiveType::INT &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_vec_n_t_3_018_00_01_primitive_type_1_1_i_n_t_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">VecNT&lt; 8, PrimitiveType::INT &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af44b6695d2ac77093130f394c322417d" name="af44b6695d2ac77093130f394c322417d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af44b6695d2ac77093130f394c322417d">&#9670;&#160;</a></span>VecNT() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7d39695d99328f4f6e8faf36a115e94" name="af7d39695d99328f4f6e8faf36a115e94"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7d39695d99328f4f6e8faf36a115e94">&#9670;&#160;</a></span>VecNT() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec_n_t.html">VecNT</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a4909df6d879ffbb0e234114609ce3000" name="a4909df6d879ffbb0e234114609ce3000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4909df6d879ffbb0e234114609ce3000">&#9670;&#160;</a></span>add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3198b30904d0e23bf46c12eabf628e9e" name="a3198b30904d0e23bf46c12eabf628e9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3198b30904d0e23bf46c12eabf628e9e">&#9670;&#160;</a></span>fma()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> fma </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">half2</a></td>          <td class="paramname"><span class="paramname"><em>shift_scale</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>b</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16f1fffe0b09a20da784cd647d11bf28" name="a16f1fffe0b09a20da784cd647d11bf28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16f1fffe0b09a20da784cd647d11bf28">&#9670;&#160;</a></span>mul()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> mul </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>a</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa2d60424caff50f6d80adfcd1ab5ba3f" name="aa2d60424caff50f6d80adfcd1ab5ba3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa2d60424caff50f6d80adfcd1ab5ba3f">&#9670;&#160;</a></span>store() <span class="overload">[1/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6dfa84a3eb11e20e68d8d3b401c7d2cf" name="a6dfa84a3eb11e20e68d8d3b401c7d2cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6dfa84a3eb11e20e68d8d3b401c7d2cf">&#9670;&#160;</a></span>store() <span class="overload">[2/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::BFloat16 *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aad5d604b72b0f656dbeb5e313ebf63af" name="aad5d604b72b0f656dbeb5e313ebf63af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad5d604b72b0f656dbeb5e313ebf63af">&#9670;&#160;</a></span>store() <span class="overload">[3/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa231a6e5c1ad91305125e2ba8c6cf773" name="aa231a6e5c1ad91305125e2ba8c6cf773"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa231a6e5c1ad91305125e2ba8c6cf773">&#9670;&#160;</a></span>store() <span class="overload">[4/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype">at::Half *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abfaf6f8618474ccb25d58d723792421d" name="abfaf6f8618474ccb25d58d723792421d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abfaf6f8618474ccb25d58d723792421d">&#9670;&#160;</a></span>store() <span class="overload">[5/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acf9a6b5f9ac186a75bd50800993e7241" name="acf9a6b5f9ac186a75bd50800993e7241"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf9a6b5f9ac186a75bd50800993e7241">&#9670;&#160;</a></span>store() <span class="overload">[6/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa7c2038d0448a12c5edd87eb31f8b828" name="aa7c2038d0448a12c5edd87eb31f8b828"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7c2038d0448a12c5edd87eb31f8b828">&#9670;&#160;</a></span>store() <span class="overload">[7/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5881b8e1b9ca2c81640bad8e6d0a455a" name="a5881b8e1b9ca2c81640bad8e6d0a455a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5881b8e1b9ca2c81640bad8e6d0a455a">&#9670;&#160;</a></span>store() <span class="overload">[8/8]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>output_ptr</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>num_valid_outputs</em><span class="paramdefsep"> = </span><span class="paramdefval">8</span></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a17543b514b8298a1e94b5671db506366" name="a17543b514b8298a1e94b5671db506366"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17543b514b8298a1e94b5671db506366">&#9670;&#160;</a></span>acc</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float8</a> acc</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_weight_row-members.html b/structfbgemm__gpu_1_1_weight_row-members.html
new file mode 100644
index 000000000..fe7a65d2a
--- /dev/null
+++ b/structfbgemm__gpu_1_1_weight_row-members.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">WeightRow&lt; emb_t, cache_t, dst_t &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a8ba350d1da8749a0975ab4c1f645de70">cache_row_</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a844805bf936642eb8849d76b506abf8d">dim_</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a64c9f91fe6b60f7294ce6bb363bdb234">evict</a>(const Vec4T&lt; dst_t &gt; &amp;v, const int32_t d, const float2 qparams)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a889b0ea41fd15897021ab06b2d62bf29">load</a>(const int32_t d, const float2 qparams) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a5f3a7bac9f71533d09bb41e67708ffc2">load_qparams</a>() const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#aba84449b569f220a80ccbbcc1d4da57c">row_</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4548dbb10be8705cf81e3e2362f1cea3">set_stochastic_rounding</a>(const bool stochastic_rounding, const at::PhiloxCudaState stochastic_rounding_philox_args, const uint64_t salt_value)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a666e6a66f2ff524d7dd4339ee8efc9d2">stoc_rounding_state_</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a2118cba7a45acc1a3d8ea5781badbbe9">store</a>(const Vec4T&lt; dst_t &gt; &amp;v, const int32_t d, const float2 qparams)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a7e20dc1480b5220df335895b7ac6bdd0">store_qparams</a>(const float2 qparams)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#a4a0da3213c0d4a99586cbe6e6ec72107">warp_copy_to</a>(WeightRow&lt; emb_t, cache_t, cache_t &gt; &amp;target, const int32_t dim_length, const int32_t num_lanes, const int32_t lane_id) const</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#ae00ddf1640cea584b79618dfd69d91d2">warp_evict</a>(const int32_t dim_length, const int32_t num_lanes, const int32_t lane_id)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html#acb13973152d6d76389dafdf6e69e6793">WeightRow</a>(emb_t *row, cache_t *cache_row, int dim, StochasticRoundingRNGState *stoc_rounding_state)</td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow&lt; emb_t, cache_t, dst_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1_weight_row.html b/structfbgemm__gpu_1_1_weight_row.html
new file mode 100644
index 000000000..2760bb627
--- /dev/null
+++ b/structfbgemm__gpu_1_1_weight_row.html
@@ -0,0 +1,470 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: WeightRow&lt; emb_t, cache_t, dst_t &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1_weight_row-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">WeightRow&lt; emb_t, cache_t, dst_t &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="acb13973152d6d76389dafdf6e69e6793" name="acb13973152d6d76389dafdf6e69e6793"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb13973152d6d76389dafdf6e69e6793">&#9670;&#160;</a></span>WeightRow()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> *</td>          <td class="paramname"><span class="paramname"><em>row</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> *</td>          <td class="paramname"><span class="paramname"><em>cache_row</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a></td>          <td class="paramname"><span class="paramname"><em>dim</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a> *</td>          <td class="paramname"><span class="paramname"><em>stoc_rounding_state</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a64c9f91fe6b60f7294ce6bb363bdb234" name="a64c9f91fe6b60f7294ce6bb363bdb234"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64c9f91fe6b60f7294ce6bb363bdb234">&#9670;&#160;</a></span>evict()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> evict </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a889b0ea41fd15897021ab06b2d62bf29" name="a889b0ea41fd15897021ab06b2d62bf29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a889b0ea41fd15897021ab06b2d62bf29">&#9670;&#160;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;) const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5f3a7bac9f71533d09bb41e67708ffc2" name="a5f3a7bac9f71533d09bb41e67708ffc2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f3a7bac9f71533d09bb41e67708ffc2">&#9670;&#160;</a></span>load_qparams()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a> load_qparams </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4548dbb10be8705cf81e3e2362f1cea3" name="a4548dbb10be8705cf81e3e2362f1cea3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4548dbb10be8705cf81e3e2362f1cea3">&#9670;&#160;</a></span>set_stochastic_rounding()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> set_stochastic_rounding </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> at::PhiloxCudaState</td>          <td class="paramname"><span class="paramname"><em>stochastic_rounding_philox_args</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">uint64_t</a></td>          <td class="paramname"><span class="paramname"><em>salt_value</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2118cba7a45acc1a3d8ea5781badbbe9" name="a2118cba7a45acc1a3d8ea5781badbbe9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2118cba7a45acc1a3d8ea5781badbbe9">&#9670;&#160;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="structfbgemm__gpu_1_1_vec4_t.html">Vec4T</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>v</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>d</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7e20dc1480b5220df335895b7ac6bdd0" name="a7e20dc1480b5220df335895b7ac6bdd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e20dc1480b5220df335895b7ac6bdd0">&#9670;&#160;</a></span>store_qparams()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> store_qparams </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">float2</a></td>          <td class="paramname"><span class="paramname"><em>qparams</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a0da3213c0d4a99586cbe6e6ec72107" name="a4a0da3213c0d4a99586cbe6e6ec72107"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a0da3213c0d4a99586cbe6e6ec72107">&#9670;&#160;</a></span>warp_copy_to()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> warp_copy_to </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structfbgemm__gpu_1_1_weight_row.html">WeightRow</a>&lt; <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a>, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>target</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>dim_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>num_lanes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>lane_id</em></span>&#160;) const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae00ddf1640cea584b79618dfd69d91d2" name="ae00ddf1640cea584b79618dfd69d91d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae00ddf1640cea584b79618dfd69d91d2">&#9670;&#160;</a></span>warp_evict()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="fbgemm__cuda__utils_8cuh.html#a8888b6e919f4a14975d3110a7425407d">DEVICE_INLINE</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">void</a> warp_evict </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>dim_length</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>num_lanes</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="namespacefbgemm__gpu.html#a112ef14feafbe22a3b70fd5ddcefcf99">int32_t</a></td>          <td class="paramname"><span class="paramname"><em>lane_id</em></span>&#160;)</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8ba350d1da8749a0975ab4c1f645de70" name="a8ba350d1da8749a0975ab4c1f645de70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ba350d1da8749a0975ab4c1f645de70">&#9670;&#160;</a></span>cache_row_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a>* cache_row_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a844805bf936642eb8849d76b506abf8d" name="a844805bf936642eb8849d76b506abf8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a844805bf936642eb8849d76b506abf8d">&#9670;&#160;</a></span>dim_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> dim_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba84449b569f220a80ccbbcc1d4da57c" name="aba84449b569f220a80ccbbcc1d4da57c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba84449b569f220a80ccbbcc1d4da57c">&#9670;&#160;</a></span>row_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a>* row_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a666e6a66f2ff524d7dd4339ee8efc9d2" name="a666e6a66f2ff524d7dd4339ee8efc9d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a666e6a66f2ff524d7dd4339ee8efc9d2">&#9670;&#160;</a></span>stoc_rounding_state_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">emb_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">cache_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">dst_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structfbgemm__gpu_1_1_stochastic_rounding_r_n_g_state.html">StochasticRoundingRNGState</a>* stoc_rounding_state_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="fbgemm__cuda__utils_8cuh.html">fbgemm_cuda_utils.cuh</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1rk__state-members.html b/structfbgemm__gpu_1_1rk__state-members.html
new file mode 100644
index 000000000..57709d3fc
--- /dev/null
+++ b/structfbgemm__gpu_1_1rk__state-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">rk_state Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html#a84e948a0aa303456e29ddecfac6a1e46">gauss</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html#a629587b5f04293ea2b0bf452faa48344">has_gauss</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html#a257f1349dcd98722e373947808b773c6">xor128</a></td><td class="entry"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structfbgemm__gpu_1_1rk__state.html b/structfbgemm__gpu_1_1rk__state.html
new file mode 100644
index 000000000..30e4b038b
--- /dev/null
+++ b/structfbgemm__gpu_1_1rk__state.html
@@ -0,0 +1,135 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: rk_state Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></li><li class="navelem"><a class="el" href="structfbgemm__gpu_1_1rk__state.html">rk_state</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structfbgemm__gpu_1_1rk__state-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">rk_state Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a84e948a0aa303456e29ddecfac6a1e46" name="a84e948a0aa303456e29ddecfac6a1e46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84e948a0aa303456e29ddecfac6a1e46">&#9670;&#160;</a></span>gauss</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">double</a> gauss</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a629587b5f04293ea2b0bf452faa48344" name="a629587b5f04293ea2b0bf452faa48344"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a629587b5f04293ea2b0bf452faa48344">&#9670;&#160;</a></span>has_gauss</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> has_gauss</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a257f1349dcd98722e373947808b773c6" name="a257f1349dcd98722e373947808b773c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a257f1349dcd98722e373947808b773c6">&#9670;&#160;</a></span>xor128</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">unsigned</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">int</a> xor128[4]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/src/sparse_ops/<a class="el" href="sparse__zipf_8cu.html">sparse_zipf.cu</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structinternal_1_1_hyper_compressed_sparse_column-members.html b/structinternal_1_1_hyper_compressed_sparse_column-members.html
new file mode 100644
index 000000000..1bedfd32e
--- /dev/null
+++ b/structinternal_1_1_hyper_compressed_sparse_column-members.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespaceinternal.html">internal</a></li><li class="navelem"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">HyperCompressedSparseColumn Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a1e60e73bdb48b0daa00b9f6caa8c6728">column_segment_ids</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad90d05e46d82122e7688be758b7cb43a">column_segment_indices</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#ad1d5cb09cff5c55cbb74931bc58d8080">column_segment_ptr</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a601991d88e6582d3bdb8bba778842c25">num_non_zero_columns</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a22af9d871fd3faef3d676cc6757debcc">row_indices</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="odd"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a210dc23584593727ddf26671264aa16a">weights</a></td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html#a60d5f8ac0716350bb51bcf02ed10aaeb">~HyperCompressedSparseColumn</a>()</td><td class="entry"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structinternal_1_1_hyper_compressed_sparse_column.html b/structinternal_1_1_hyper_compressed_sparse_column.html
new file mode 100644
index 000000000..10ee7003b
--- /dev/null
+++ b/structinternal_1_1_hyper_compressed_sparse_column.html
@@ -0,0 +1,205 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: HyperCompressedSparseColumn Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespaceinternal.html">internal</a></li><li class="navelem"><a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structinternal_1_1_hyper_compressed_sparse_column-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">HyperCompressedSparseColumn Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;embedding_forward_split_cpu.h&gt;</code></p>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a60d5f8ac0716350bb51bcf02ed10aaeb" name="a60d5f8ac0716350bb51bcf02ed10aaeb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60d5f8ac0716350bb51bcf02ed10aaeb">&#9670;&#160;</a></span>~HyperCompressedSparseColumn()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">~<a class="el" href="structinternal_1_1_hyper_compressed_sparse_column.html">HyperCompressedSparseColumn</a> </td>
+          <td>(</td>
+          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a1e60e73bdb48b0daa00b9f6caa8c6728" name="a1e60e73bdb48b0daa00b9f6caa8c6728"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e60e73bdb48b0daa00b9f6caa8c6728">&#9670;&#160;</a></span>column_segment_ids</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int* column_segment_ids = nullptr</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad90d05e46d82122e7688be758b7cb43a" name="ad90d05e46d82122e7688be758b7cb43a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad90d05e46d82122e7688be758b7cb43a">&#9670;&#160;</a></span>column_segment_indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int* column_segment_indices = nullptr</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1d5cb09cff5c55cbb74931bc58d8080" name="ad1d5cb09cff5c55cbb74931bc58d8080"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1d5cb09cff5c55cbb74931bc58d8080">&#9670;&#160;</a></span>column_segment_ptr</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int* column_segment_ptr = nullptr</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a601991d88e6582d3bdb8bba778842c25" name="a601991d88e6582d3bdb8bba778842c25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a601991d88e6582d3bdb8bba778842c25">&#9670;&#160;</a></span>num_non_zero_columns</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int num_non_zero_columns</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a22af9d871fd3faef3d676cc6757debcc" name="a22af9d871fd3faef3d676cc6757debcc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a22af9d871fd3faef3d676cc6757debcc">&#9670;&#160;</a></span>row_indices</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int* row_indices = nullptr</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a210dc23584593727ddf26671264aa16a" name="a210dc23584593727ddf26671264aa16a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a210dc23584593727ddf26671264aa16a">&#9670;&#160;</a></span>weights</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a>* weights = nullptr</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/codegen/<a class="el" href="embedding__forward__split__cpu_8h.html">embedding_forward_split_cpu.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc-members.html b/structlog2__calc-members.html
new file mode 100644
index 000000000..5d6c76e37
--- /dev/null
+++ b/structlog2__calc-members.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">log2_calc&lt; x &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structlog2__calc.html">log2_calc&lt; x &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structlog2__calc.html#a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9">value</a> enum value</td><td class="entry"><a class="el" href="structlog2__calc.html">log2_calc&lt; x &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc.html b/structlog2__calc.html
new file mode 100644
index 000000000..1ce6193a8
--- /dev/null
+++ b/structlog2__calc.html
@@ -0,0 +1,110 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: log2_calc&lt; x &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structlog2__calc-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">log2_calc&lt; x &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;sparse_ops_utils.h&gt;</code></p>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a99fb83031ce9923c84392b4e92f956b5" name="a99fb83031ce9923c84392b4e92f956b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99fb83031ce9923c84392b4e92f956b5">&#9670;&#160;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int x&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9" name="a99fb83031ce9923c84392b4e92f956b5a97de9ab6885342a574053b8f64a563a9"></a>value&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc__-members.html b/structlog2__calc__-members.html
new file mode 100644
index 000000000..d55b14098
--- /dev/null
+++ b/structlog2__calc__-members.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">log2_calc_&lt; x &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structlog2__calc__.html">log2_calc_&lt; x &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structlog2__calc__.html#a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9">value</a> enum value</td><td class="entry"><a class="el" href="structlog2__calc__.html">log2_calc_&lt; x &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc__.html b/structlog2__calc__.html
new file mode 100644
index 000000000..31a330d92
--- /dev/null
+++ b/structlog2__calc__.html
@@ -0,0 +1,110 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: log2_calc_&lt; x &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structlog2__calc__-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">log2_calc_&lt; x &gt; Struct Template Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;sparse_ops_utils.h&gt;</code></p>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a06fc87d81c62e9abb8790b6e5713c55b" name="a06fc87d81c62e9abb8790b6e5713c55b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a06fc87d81c62e9abb8790b6e5713c55b">&#9670;&#160;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int x&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9" name="a06fc87d81c62e9abb8790b6e5713c55ba97de9ab6885342a574053b8f64a563a9"></a>value&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc___3_010_01_4-members.html b/structlog2__calc___3_010_01_4-members.html
new file mode 100644
index 000000000..94a5daf26
--- /dev/null
+++ b/structlog2__calc___3_010_01_4-members.html
@@ -0,0 +1,87 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">log2_calc_&lt; 0 &gt; Member List</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structlog2__calc___3_010_01_4.html">log2_calc_&lt; 0 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structlog2__calc___3_010_01_4.html#adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9">value</a> enum value</td><td class="entry"><a class="el" href="structlog2__calc___3_010_01_4.html">log2_calc_&lt; 0 &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/structlog2__calc___3_010_01_4.html b/structlog2__calc___3_010_01_4.html
new file mode 100644
index 000000000..7dfce26b8
--- /dev/null
+++ b/structlog2__calc___3_010_01_4.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: log2_calc_&lt; 0 &gt; Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structlog2__calc___3_010_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle"><div class="title">log2_calc_&lt; 0 &gt; Struct Reference</div></div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;sparse_ops_utils.h&gt;</code></p>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="adf764cbdea00d65edcd07bb9953ad2b7" name="adf764cbdea00d65edcd07bb9953ad2b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf764cbdea00d65edcd07bb9953ad2b7">&#9670;&#160;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9" name="adf764cbdea00d65edcd07bb9953ad2b7a97de9ab6885342a574053b8f64a563a9"></a>value&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li>/__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/<a class="el" href="sparse__ops__utils_8h.html">sparse_ops_utils.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/tabs.css b/tabs.css
index 71c8a4704..fe4854aa5 100644
--- a/tabs.css
+++ b/tabs.css
@@ -1 +1 @@
-.sm{position:relative;z-index:9999}.sm,.sm ul,.sm li{display:block;list-style:none;margin:0;padding:0;line-height:normal;direction:ltr;text-align:left;-webkit-tap-highlight-color:rgba(0,0,0,0)}.sm-rtl,.sm-rtl ul,.sm-rtl li{direction:rtl;text-align:right}.sm>li>h1,.sm>li>h2,.sm>li>h3,.sm>li>h4,.sm>li>h5,.sm>li>h6{margin:0;padding:0}.sm ul{display:none}.sm li,.sm a{position:relative}.sm a{display:block}.sm a.disabled{cursor:not-allowed}.sm:after{content:"\00a0";display:block;height:0;font:0/0 serif;clear:both;visibility:hidden;overflow:hidden}.sm,.sm *,.sm *:before,.sm *:after{-moz-box-sizing:border-box;-webkit-box-sizing:border-box;box-sizing:border-box}.main-menu-btn{position:relative;display:inline-block;width:36px;height:36px;text-indent:36px;margin-left:8px;white-space:nowrap;overflow:hidden;cursor:pointer;-webkit-tap-highlight-color:rgba(0,0,0,0)}.main-menu-btn-icon,.main-menu-btn-icon:before,.main-menu-btn-icon:after{position:absolute;top:50%;left:2px;height:2px;width:24px;background:var(--nav-menu-button-color);-webkit-transition:all .25s;transition:all .25s}.main-menu-btn-icon:before{content:'';top:-7px;left:0}.main-menu-btn-icon:after{content:'';top:7px;left:0}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon{height:0}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon:before{top:0;-webkit-transform:rotate(-45deg);transform:rotate(-45deg)}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon:after{top:0;-webkit-transform:rotate(45deg);transform:rotate(45deg)}#main-menu-state{position:absolute;width:1px;height:1px;margin:-1px;border:0;padding:0;overflow:hidden;clip:rect(1px,1px,1px,1px)}#main-menu-state:not(:checked) ~ #main-menu{display:none}#main-menu-state:checked ~ #main-menu{display:block}@media(min-width:768px){.main-menu-btn{position:absolute;top:-99999px}#main-menu-state:not(:checked) ~ #main-menu{display:block}}.sm-dox{background-image:var(--nav-gradient-image)}.sm-dox a,.sm-dox a:focus,.sm-dox a:hover,.sm-dox a:active{padding:0 12px;padding-right:43px;font-family:var(--font-family-nav);font-size:13px;font-weight:bold;line-height:36px;text-decoration:none;text-shadow:var(--nav-text-normal-shadow);color:var(--nav-text-normal-color);outline:0}.sm-dox a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox a.current{color:#d23600}.sm-dox a.disabled{color:#bbb}.sm-dox a span.sub-arrow{position:absolute;top:50%;margin-top:-14px;left:auto;right:3px;width:28px;height:28px;overflow:hidden;font:bold 12px/28px monospace !important;text-align:center;text-shadow:none;background:var(--nav-menu-toggle-color);-moz-border-radius:5px;-webkit-border-radius:5px;border-radius:5px}.sm-dox a span.sub-arrow:before{display:block;content:'+'}.sm-dox a.highlighted span.sub-arrow:before{display:block;content:'-'}.sm-dox>li:first-child>a,.sm-dox>li:first-child>:not(ul) a{-moz-border-radius:5px 5px 0 0;-webkit-border-radius:5px;border-radius:5px 5px 0 0}.sm-dox>li:last-child>a,.sm-dox>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul{-moz-border-radius:0 0 5px 5px;-webkit-border-radius:0;border-radius:0 0 5px 5px}.sm-dox>li:last-child>a.highlighted,.sm-dox>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted{-moz-border-radius:0;-webkit-border-radius:0;border-radius:0}.sm-dox ul{background:var(--nav-menu-background-color)}.sm-dox ul a,.sm-dox ul a:focus,.sm-dox ul a:hover,.sm-dox ul a:active{font-size:12px;border-left:8px solid transparent;line-height:36px;text-shadow:none;background-color:var(--nav-menu-background-color);background-image:none}.sm-dox ul a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:0 1px 1px black}.sm-dox ul ul a,.sm-dox ul ul a:hover,.sm-dox ul ul a:focus,.sm-dox ul ul a:active{border-left:16px solid transparent}.sm-dox ul ul ul a,.sm-dox ul ul ul a:hover,.sm-dox ul ul ul a:focus,.sm-dox ul ul ul a:active{border-left:24px solid transparent}.sm-dox ul ul ul ul a,.sm-dox ul ul ul ul a:hover,.sm-dox ul ul ul ul a:focus,.sm-dox ul ul ul ul a:active{border-left:32px solid transparent}.sm-dox ul ul ul ul ul a,.sm-dox ul ul ul ul ul a:hover,.sm-dox ul ul ul ul ul a:focus,.sm-dox ul ul ul ul ul a:active{border-left:40px solid transparent}@media(min-width:768px){.sm-dox ul{position:absolute;width:12em}.sm-dox li{float:left}.sm-dox.sm-rtl li{float:right}.sm-dox ul li,.sm-dox.sm-rtl ul li,.sm-dox.sm-vertical li{float:none}.sm-dox a{white-space:nowrap}.sm-dox ul a,.sm-dox.sm-vertical a{white-space:normal}.sm-dox .sm-nowrap>li>a,.sm-dox .sm-nowrap>li>:not(ul) a{white-space:nowrap}.sm-dox{padding:0 10px;background-image:var(--nav-gradient-image);line-height:36px}.sm-dox a span.sub-arrow{top:50%;margin-top:-2px;right:12px;width:0;height:0;border-width:4px;border-style:solid dashed dashed dashed;border-color:var(--nav-text-normal-color) transparent transparent transparent;background:transparent;-moz-border-radius:0;-webkit-border-radius:0;border-radius:0}.sm-dox a,.sm-dox a:focus,.sm-dox a:active,.sm-dox a:hover,.sm-dox a.highlighted{padding:0 12px;background-image:var(--nav-separator-image);background-repeat:no-repeat;background-position:right;-moz-border-radius:0 !important;-webkit-border-radius:0;border-radius:0 !important}.sm-dox a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox a:hover span.sub-arrow{border-color:var(--nav-text-hover-color) transparent transparent transparent}.sm-dox a.has-submenu{padding-right:24px}.sm-dox li{border-top:0}.sm-dox>li>ul:before,.sm-dox>li>ul:after{content:'';position:absolute;top:-18px;left:30px;width:0;height:0;overflow:hidden;border-width:9px;border-style:dashed dashed solid dashed;border-color:transparent transparent #bbb transparent}.sm-dox>li>ul:after{top:-16px;left:31px;border-width:8px;border-color:transparent transparent var(--nav-menu-background-color) transparent}.sm-dox ul{border:1px solid #bbb;padding:5px 0;background:var(--nav-menu-background-color);-moz-border-radius:5px !important;-webkit-border-radius:5px;border-radius:5px !important;-moz-box-shadow:0 5px 9px rgba(0,0,0,0.2);-webkit-box-shadow:0 5px 9px rgba(0,0,0,0.2);box-shadow:0 5px 9px rgba(0,0,0,0.2)}.sm-dox ul a span.sub-arrow{right:8px;top:50%;margin-top:-5px;border-width:5px;border-color:transparent transparent transparent var(--nav-menu-foreground-color);border-style:dashed dashed dashed solid}.sm-dox ul a,.sm-dox ul a:hover,.sm-dox ul a:focus,.sm-dox ul a:active,.sm-dox ul a.highlighted{color:var(--nav-menu-foreground-color);background-image:none;border:0 !important;color:var(--nav-menu-foreground-color);background-image:none}.sm-dox ul a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox ul a:hover span.sub-arrow{border-color:transparent transparent transparent var(--nav-text-hover-color)}.sm-dox span.scroll-up,.sm-dox span.scroll-down{position:absolute;display:none;visibility:hidden;overflow:hidden;background:var(--nav-menu-background-color);height:36px}.sm-dox span.scroll-up:hover,.sm-dox span.scroll-down:hover{background:#eee}.sm-dox span.scroll-up:hover span.scroll-up-arrow,.sm-dox span.scroll-up:hover span.scroll-down-arrow{border-color:transparent transparent #d23600 transparent}.sm-dox span.scroll-down:hover span.scroll-down-arrow{border-color:#d23600 transparent transparent transparent}.sm-dox span.scroll-up-arrow,.sm-dox span.scroll-down-arrow{position:absolute;top:0;left:50%;margin-left:-6px;width:0;height:0;overflow:hidden;border-width:6px;border-style:dashed dashed solid dashed;border-color:transparent transparent var(--nav-menu-foreground-color) transparent}.sm-dox span.scroll-down-arrow{top:8px;border-style:solid dashed dashed dashed;border-color:var(--nav-menu-foreground-color) transparent transparent transparent}.sm-dox.sm-rtl a.has-submenu{padding-right:12px;padding-left:24px}.sm-dox.sm-rtl a span.sub-arrow{right:auto;left:12px}.sm-dox.sm-rtl.sm-vertical a.has-submenu{padding:10px 20px}.sm-dox.sm-rtl.sm-vertical a span.sub-arrow{right:auto;left:8px;border-style:dashed solid dashed dashed;border-color:transparent #555 transparent transparent}.sm-dox.sm-rtl>li>ul:before{left:auto;right:30px}.sm-dox.sm-rtl>li>ul:after{left:auto;right:31px}.sm-dox.sm-rtl ul a.has-submenu{padding:10px 20px !important}.sm-dox.sm-rtl ul a span.sub-arrow{right:auto;left:8px;border-style:dashed solid dashed dashed;border-color:transparent #555 transparent transparent}.sm-dox.sm-vertical{padding:10px 0;-moz-border-radius:5px;-webkit-border-radius:5px;border-radius:5px}.sm-dox.sm-vertical a{padding:10px 20px}.sm-dox.sm-vertical a:hover,.sm-dox.sm-vertical a:focus,.sm-dox.sm-vertical a:active,.sm-dox.sm-vertical a.highlighted{background:#fff}.sm-dox.sm-vertical a.disabled{background-image:var(--nav-gradient-image)}.sm-dox.sm-vertical a span.sub-arrow{right:8px;top:50%;margin-top:-5px;border-width:5px;border-style:dashed dashed dashed solid;border-color:transparent transparent transparent #555}.sm-dox.sm-vertical>li>ul:before,.sm-dox.sm-vertical>li>ul:after{display:none}.sm-dox.sm-vertical ul a{padding:10px 20px}.sm-dox.sm-vertical ul a:hover,.sm-dox.sm-vertical ul a:focus,.sm-dox.sm-vertical ul a:active,.sm-dox.sm-vertical ul a.highlighted{background:#eee}.sm-dox.sm-vertical ul a.disabled{background:var(--nav-menu-background-color)}}
\ No newline at end of file
+.sm{position:relative;z-index:9999}.sm,.sm ul,.sm li{display:block;list-style:none;margin:0;padding:0;line-height:normal;direction:ltr;text-align:left;-webkit-tap-highlight-color:rgba(0,0,0,0)}.sm-rtl,.sm-rtl ul,.sm-rtl li{direction:rtl;text-align:right}.sm>li>h1,.sm>li>h2,.sm>li>h3,.sm>li>h4,.sm>li>h5,.sm>li>h6{margin:0;padding:0}.sm ul{display:none}.sm li,.sm a{position:relative}.sm a{display:block}.sm a.disabled{cursor:not-allowed}.sm:after{content:"\00a0";display:block;height:0;font:0/0 serif;clear:both;visibility:hidden;overflow:hidden}.sm,.sm *,.sm *:before,.sm *:after{-moz-box-sizing:border-box;-webkit-box-sizing:border-box;box-sizing:border-box}.main-menu-btn{position:relative;display:inline-block;width:36px;height:36px;text-indent:36px;margin-left:8px;white-space:nowrap;overflow:hidden;cursor:pointer;-webkit-tap-highlight-color:rgba(0,0,0,0)}.main-menu-btn-icon,.main-menu-btn-icon:before,.main-menu-btn-icon:after{position:absolute;top:50%;left:2px;height:2px;width:24px;background:var(--nav-menu-button-color);-webkit-transition:all .25s;transition:all .25s}.main-menu-btn-icon:before{content:'';top:-7px;left:0}.main-menu-btn-icon:after{content:'';top:7px;left:0}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon{height:0}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon:before{top:0;-webkit-transform:rotate(-45deg);transform:rotate(-45deg)}#main-menu-state:checked ~ .main-menu-btn .main-menu-btn-icon:after{top:0;-webkit-transform:rotate(45deg);transform:rotate(45deg)}#main-menu-state{position:absolute;width:1px;height:1px;margin:-1px;border:0;padding:0;overflow:hidden;clip:rect(1px,1px,1px,1px)}#main-menu-state:not(:checked) ~ #main-menu{display:none}#main-menu-state:checked ~ #main-menu{display:block}@media(min-width:768px){.main-menu-btn{position:absolute;top:-99999px}#main-menu-state:not(:checked) ~ #main-menu{display:block}}.sm-dox{background-image:var(--nav-gradient-image)}.sm-dox a,.sm-dox a:focus,.sm-dox a:hover,.sm-dox a:active{padding:0 12px;padding-right:43px;font-family:var(--font-family-nav);font-size:13px;font-weight:bold;line-height:36px;text-decoration:none;text-shadow:var(--nav-text-normal-shadow);color:var(--nav-text-normal-color);outline:0}.sm-dox a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox a.current{color:#d23600}.sm-dox a.disabled{color:#bbb}.sm-dox a span.sub-arrow{position:absolute;top:50%;margin-top:-14px;left:auto;right:3px;width:28px;height:28px;overflow:hidden;font:bold 12px/28px monospace !important;text-align:center;text-shadow:none;background:var(--nav-menu-toggle-color);-moz-border-radius:5px;-webkit-border-radius:5px;border-radius:5px}.sm-dox a span.sub-arrow:before{display:block;content:'+'}.sm-dox a.highlighted span.sub-arrow:before{display:block;content:'-'}.sm-dox>li:first-child>a,.sm-dox>li:first-child>:not(ul) a{-moz-border-radius:5px 5px 0 0;-webkit-border-radius:5px;border-radius:5px 5px 0 0}.sm-dox>li:last-child>a,.sm-dox>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul{-moz-border-radius:0 0 5px 5px;-webkit-border-radius:0;border-radius:0 0 5px 5px}.sm-dox>li:last-child>a.highlighted,.sm-dox>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>a.highlighted,.sm-dox>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>ul>li:last-child>*:not(ul) a.highlighted{-moz-border-radius:0;-webkit-border-radius:0;border-radius:0}.sm-dox ul{background:var(--nav-menu-background-color)}.sm-dox ul a,.sm-dox ul a:focus,.sm-dox ul a:hover,.sm-dox ul a:active{font-size:12px;border-left:8px solid transparent;line-height:36px;text-shadow:none;background-color:var(--nav-menu-background-color);background-image:none}.sm-dox ul a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:0 1px 1px black}.sm-dox ul ul a,.sm-dox ul ul a:hover,.sm-dox ul ul a:focus,.sm-dox ul ul a:active{border-left:16px solid transparent}.sm-dox ul ul ul a,.sm-dox ul ul ul a:hover,.sm-dox ul ul ul a:focus,.sm-dox ul ul ul a:active{border-left:24px solid transparent}.sm-dox ul ul ul ul a,.sm-dox ul ul ul ul a:hover,.sm-dox ul ul ul ul a:focus,.sm-dox ul ul ul ul a:active{border-left:32px solid transparent}.sm-dox ul ul ul ul ul a,.sm-dox ul ul ul ul ul a:hover,.sm-dox ul ul ul ul ul a:focus,.sm-dox ul ul ul ul ul a:active{border-left:40px solid transparent}@media(min-width:768px){.sm-dox ul{position:absolute;width:12em}.sm-dox li{float:left}.sm-dox.sm-rtl li{float:right}.sm-dox ul li,.sm-dox.sm-rtl ul li,.sm-dox.sm-vertical li{float:none}.sm-dox a{white-space:nowrap}.sm-dox ul a,.sm-dox.sm-vertical a{white-space:normal}.sm-dox .sm-nowrap>li>a,.sm-dox .sm-nowrap>li>:not(ul) a{white-space:nowrap}.sm-dox{padding:0 10px;background-image:var(--nav-gradient-image);line-height:36px}.sm-dox a span.sub-arrow{top:50%;margin-top:-2px;right:12px;width:0;height:0;border-width:4px;border-style:solid dashed dashed dashed;border-color:var(--nav-text-normal-color) transparent transparent transparent;background:transparent;-moz-border-radius:0;-webkit-border-radius:0;border-radius:0}.sm-dox a,.sm-dox a:focus,.sm-dox a:active,.sm-dox a:hover,.sm-dox a.highlighted{padding:0 12px;background-image:var(--nav-separator-image);background-repeat:no-repeat;background-position:right;-moz-border-radius:0 !important;-webkit-border-radius:0;border-radius:0 !important}.sm-dox a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox a:hover span.sub-arrow{border-color:var(--nav-text-hover-color) transparent transparent transparent}.sm-dox a.has-submenu{padding-right:24px}.sm-dox li{border-top:0}.sm-dox>li>ul:before,.sm-dox>li>ul:after{content:'';position:absolute;top:-18px;left:30px;width:0;height:0;overflow:hidden;border-width:9px;border-style:dashed dashed solid dashed;border-color:transparent transparent #bbb transparent}.sm-dox>li>ul:after{top:-16px;left:31px;border-width:8px;border-color:transparent transparent var(--nav-menu-background-color) transparent}.sm-dox ul{border:1px solid #bbb;padding:5px 0;background:var(--nav-menu-background-color);-moz-border-radius:5px !important;-webkit-border-radius:5px;border-radius:5px !important;-moz-box-shadow:0 5px 9px rgba(0,0,0,0.2);-webkit-box-shadow:0 5px 9px rgba(0,0,0,0.2);box-shadow:0 5px 9px rgba(0,0,0,0.2)}.sm-dox ul a span.sub-arrow{right:8px;top:50%;margin-top:-5px;border-width:5px;border-color:transparent transparent transparent var(--nav-menu-foreground-color);border-style:dashed dashed dashed solid}.sm-dox ul a,.sm-dox ul a:hover,.sm-dox ul a:focus,.sm-dox ul a:active,.sm-dox ul a.highlighted{color:var(--nav-menu-foreground-color);background-image:none;border:0 !important}.sm-dox ul a:hover{background-image:var(--nav-gradient-active-image);background-repeat:repeat-x;color:var(--nav-text-hover-color);text-shadow:var(--nav-text-hover-shadow)}.sm-dox ul a:hover span.sub-arrow{border-color:transparent transparent transparent var(--nav-text-hover-color)}.sm-dox span.scroll-up,.sm-dox span.scroll-down{position:absolute;display:none;visibility:hidden;overflow:hidden;background:var(--nav-menu-background-color);height:36px}.sm-dox span.scroll-up:hover,.sm-dox span.scroll-down:hover{background:#eee}.sm-dox span.scroll-up:hover span.scroll-up-arrow,.sm-dox span.scroll-up:hover span.scroll-down-arrow{border-color:transparent transparent #d23600 transparent}.sm-dox span.scroll-down:hover span.scroll-down-arrow{border-color:#d23600 transparent transparent transparent}.sm-dox span.scroll-up-arrow,.sm-dox span.scroll-down-arrow{position:absolute;top:0;left:50%;margin-left:-6px;width:0;height:0;overflow:hidden;border-width:6px;border-style:dashed dashed solid dashed;border-color:transparent transparent var(--nav-menu-foreground-color) transparent}.sm-dox span.scroll-down-arrow{top:8px;border-style:solid dashed dashed dashed;border-color:var(--nav-menu-foreground-color) transparent transparent transparent}.sm-dox.sm-rtl a.has-submenu{padding-right:12px;padding-left:24px}.sm-dox.sm-rtl a span.sub-arrow{right:auto;left:12px}.sm-dox.sm-rtl.sm-vertical a.has-submenu{padding:10px 20px}.sm-dox.sm-rtl.sm-vertical a span.sub-arrow{right:auto;left:8px;border-style:dashed solid dashed dashed;border-color:transparent #555 transparent transparent}.sm-dox.sm-rtl>li>ul:before{left:auto;right:30px}.sm-dox.sm-rtl>li>ul:after{left:auto;right:31px}.sm-dox.sm-rtl ul a.has-submenu{padding:10px 20px !important}.sm-dox.sm-rtl ul a span.sub-arrow{right:auto;left:8px;border-style:dashed solid dashed dashed;border-color:transparent #555 transparent transparent}.sm-dox.sm-vertical{padding:10px 0;-moz-border-radius:5px;-webkit-border-radius:5px;border-radius:5px}.sm-dox.sm-vertical a{padding:10px 20px}.sm-dox.sm-vertical a:hover,.sm-dox.sm-vertical a:focus,.sm-dox.sm-vertical a:active,.sm-dox.sm-vertical a.highlighted{background:#fff}.sm-dox.sm-vertical a.disabled{background-image:var(--nav-gradient-image)}.sm-dox.sm-vertical a span.sub-arrow{right:8px;top:50%;margin-top:-5px;border-width:5px;border-style:dashed dashed dashed solid;border-color:transparent transparent transparent #555}.sm-dox.sm-vertical>li>ul:before,.sm-dox.sm-vertical>li>ul:after{display:none}.sm-dox.sm-vertical ul a{padding:10px 20px}.sm-dox.sm-vertical ul a:hover,.sm-dox.sm-vertical ul a:focus,.sm-dox.sm-vertical ul a:active,.sm-dox.sm-vertical ul a.highlighted{background:#eee}.sm-dox.sm-vertical ul a.disabled{background:var(--nav-menu-background-color)}}
\ No newline at end of file
diff --git a/tensor__assert__test_8cpp.html b/tensor__assert__test_8cpp.html
new file mode 100644
index 000000000..d81ea8818
--- /dev/null
+++ b/tensor__assert__test_8cpp.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/test/tensor_assert_test.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html">test</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">tensor_assert_test.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/ATen.h&gt;</code><br />
+<code>#include &lt;gtest/gtest.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="sparse__ops__utils_8h.html">fbgemm_gpu/sparse_ops_utils.h</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="af3ce575ab5810b31aae3455d53faacee" name="af3ce575ab5810b31aae3455d53faacee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af3ce575ab5810b31aae3455d53faacee">&#9670;&#160;</a></span>TEST()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">tensor_assert_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">gpu_asserts</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/topics.html b/topics.html
index 7a3526d06..61bc94fe9 100644
--- a/topics.html
+++ b/topics.html
@@ -3,12 +3,14 @@
 <head>
 <meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
 <meta http-equiv="X-UA-Compatible" content="IE=11"/>
-<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
 <title>fbgemm_gpu: Topics</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
 <link href="search/search.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="search/searchdata.js"></script>
 <script type="text/javascript" src="search/search.js"></script>
@@ -29,7 +31,7 @@
 </table>
 </div>
 <!-- end header part -->
-<!-- Generated by Doxygen 1.9.8 -->
+<!-- Generated by Doxygen 1.10.0 -->
 <script type="text/javascript">
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 var searchBox = new SearchBox("searchBox", "search/",'.html');
@@ -41,7 +43,7 @@
 /* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
 $(function() {
   initMenu('',true,false,'search.php','Search');
-  $(document).ready(function() { init_search(); });
+  $(function() { init_search(); });
 });
 /* @license-end */
 </script>
@@ -74,28 +76,28 @@
 <div class="contents">
 <div class="textblock">Here is a list of all topics with brief descriptions:</div><div class="directory">
 <table class="directory">
-<tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__cumem-utils.html" target="_self">CUDA Memorty Operators</a></td><td class="desc"></td></tr>
-<tr id="row_1_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__input-combine.html" target="_self">Combine Input Operators</a></td><td class="desc"></td></tr>
-<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__merge-pooled-emb.html" target="_self">Merge Operators</a></td><td class="desc"></td></tr>
-<tr id="row_3_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__permute-pooled-embs-gpu.html" target="_self">CUDA Permutation Operators</a></td><td class="desc"></td></tr>
-<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__permute-pooled-embs-cpu.html" target="_self">CPU Permutation Operators</a></td><td class="desc"></td></tr>
-<tr id="row_5_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__sparse-data-cuda.html" target="_self">Sparse Data CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__sparse-data-cpu.html" target="_self">Sparse Data CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_7_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__table-batched-embed-cuda.html" target="_self">CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cuda.html" target="_self">Jagged Tensor CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_9_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cpu.html" target="_self">Jagged Tensor Operators</a></td><td class="desc"></td></tr>
-<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cuda.html" target="_self">Layout Transformation CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_11_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cpu.html" target="_self">Layout Transformation CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-ops-cuda.html" target="_self">Quantization Operators for CUDA</a></td><td class="desc"></td></tr>
-<tr id="row_13_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-data-cpu.html" target="_self">Quantize Data CPU Operators</a></td><td class="desc"></td></tr>
-<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cuda.html" target="_self">Embedding CUDA Operators</a></td><td class="desc"></td></tr>
-<tr id="row_15_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cpu.html" target="_self">Embedding CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cuda.html" target="_self">Embedding CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_1_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__embedding-cpu.html" target="_self">Embedding CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__cumem-utils.html" target="_self">CUDA Memory Operators</a></td><td class="desc"></td></tr>
+<tr id="row_3_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__input-combine.html" target="_self">Combine Input Operators</a></td><td class="desc"></td></tr>
+<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__merge-pooled-emb.html" target="_self">Merge Operators</a></td><td class="desc"></td></tr>
+<tr id="row_5_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__permute-pooled-embs-gpu.html" target="_self">Permute Pooled Embeddings Operators (CUDA)</a></td><td class="desc"></td></tr>
+<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__permute-pooled-embs-cpu.html" target="_self">Permute Pooled Embeddings Operators (CPU)</a></td><td class="desc"></td></tr>
+<tr id="row_7_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__sparse-data-cuda.html" target="_self">Sparse Data CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__sparse-data-cpu.html" target="_self">Sparse Data CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_9_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__table-batched-embed-cuda.html" target="_self">CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cuda.html" target="_self">Jagged Tensor CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_11_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__jagged-tensor-ops-cpu.html" target="_self">Jagged Tensor Operators</a></td><td class="desc"></td></tr>
+<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cuda.html" target="_self">Layout Transformation CUDA Operators</a></td><td class="desc"></td></tr>
+<tr id="row_13_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout-transform-cpu.html" target="_self">Layout Transformation CPU Operators</a></td><td class="desc"></td></tr>
+<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-ops-cuda.html" target="_self">Quantization Operators (CUDA)</a></td><td class="desc"></td></tr>
+<tr id="row_15_" class="odd"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__quantize-data-cpu.html" target="_self">Quantize Data CPU Operators</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
 </small></address>
 </body>
 </html>
diff --git a/topology__utils_8cpp.html b/topology__utils_8cpp.html
new file mode 100644
index 000000000..9a5481c35
--- /dev/null
+++ b/topology__utils_8cpp.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/topology_utils.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">topology_utils.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;ATen/cuda/CUDAContext.h&gt;</code><br />
+<code>#include &lt;c10/core/Device.h&gt;</code><br />
+<code>#include &lt;c10/cuda/CUDAException.h&gt;</code><br />
+<code>#include &lt;c10/util/Logging.h&gt;</code><br />
+<code>#include &lt;algorithm&gt;</code><br />
+<code>#include &quot;<a class="el" href="topology__utils_8h.html">fbgemm_gpu/topology_utils.h</a>&quot;</code><br />
+<code>#include &lt;nvml.h&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="af1ec00426a14a4658189ab308ea76636" name="af1ec00426a14a4658189ab308ea76636"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af1ec00426a14a4658189ab308ea76636">&#9670;&#160;</a></span>NVML_CHECK</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define NVML_CHECK</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">fn</span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keywordflow">do</span> {                                   \</div>
+<div class="line">    nvmlReturn_t ret = (fn);             \</div>
+<div class="line">    TORCH_CHECK_EQ((ret), NVML_SUCCESS); \</div>
+<div class="line">  } <span class="keywordflow">while</span> (0)</div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/topology__utils_8h.html b/topology__utils_8h.html
new file mode 100644
index 000000000..14fae9a3c
--- /dev/null
+++ b/topology__utils_8h.html
@@ -0,0 +1,141 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/include/fbgemm_gpu/topology_utils.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_cafe9c3a34c8f467f9ca81fe4c33c741.html">fbgemm_gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle"><div class="title">topology_utils.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;functional&gt;</code><br />
+</div><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="namespaces" name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacefbgemm__gpu" id="r_namespacefbgemm__gpu"><td class="memItemLeft" align="right" valign="top">namespace &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacefbgemm__gpu.html">fbgemm_gpu</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="ada7183ec06808ddb73d8f1a65cd8f7ae" name="ada7183ec06808ddb73d8f1a65cd8f7ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada7183ec06808ddb73d8f1a65cd8f7ae">&#9670;&#160;</a></span>AdjacencyMatrix</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename <a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#ada7183ec06808ddb73d8f1a65cd8f7ae">AdjacencyMatrix</a> = std::function&lt;<a class="el" href="gen__embedding__forward__split__unweighted__codegen__cuda_8cu.html#a2ee4b3e799d56c4d34c87190c37a7a64">T</a>(<a class="el" href="#a659b93920c81116289ee7ff5d45f48c9">Node</a>, <a class="el" href="#a659b93920c81116289ee7ff5d45f48c9">Node</a>)&gt;</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a434a916b92f4caf48f14d480c6aa845a" name="a434a916b92f4caf48f14d480c6aa845a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a434a916b92f4caf48f14d480c6aa845a">&#9670;&#160;</a></span>Links</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#a434a916b92f4caf48f14d480c6aa845a">Links</a> = <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a659b93920c81116289ee7ff5d45f48c9" name="a659b93920c81116289ee7ff5d45f48c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a659b93920c81116289ee7ff5d45f48c9">&#9670;&#160;</a></span>Node</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">using <a class="el" href="#a659b93920c81116289ee7ff5d45f48c9">Node</a> = <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/transpose__embedding__input_8cu.html b/transpose__embedding__input_8cu.html
new file mode 100644
index 000000000..8cc67f53a
--- /dev/null
+++ b/transpose__embedding__input_8cu.html
@@ -0,0 +1,302 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/src/split_embeddings_utils/transpose_embedding_input.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_68267d1309a1af8e8297ef4c3efbcdba.html">src</a></li><li class="navelem"><a class="el" href="dir_0948881d7cc927e01ea6d36a3aab1e2e.html">split_embeddings_utils</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">transpose_embedding_input.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &quot;<a class="el" href="embedding__backward__template__helpers_8cuh.html">fbgemm_gpu/embedding_backward_template_helpers.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="ops__utils_8h.html">fbgemm_gpu/ops_utils.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__utils_8cuh.html">fbgemm_gpu/split_embeddings_utils.cuh</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__prefix_8cuh.html">fbgemm_gpu/cub_namespace_prefix.cuh</a>&quot;</code><br />
+<code>#include &lt;cub/device/device_radix_sort.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_run_length_encode.cuh&gt;</code><br />
+<code>#include &lt;cub/device/device_scan.cuh&gt;</code><br />
+<code>#include &quot;<a class="el" href="cub__namespace__postfix_8cuh.html">fbgemm_gpu/cub_namespace_postfix.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="ac03452638c5653f404a402f9f7356841" name="ac03452638c5653f404a402f9f7356841"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac03452638c5653f404a402f9f7356841">&#9670;&#160;</a></span>INVOKE_LINEARIZE_INDEX_KERNEL</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define INVOKE_LINEARIZE_INDEX_KERNEL</td>
+          <td>(</td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">INFO_ACC_T, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"></td>          <td class="paramname"><span class="paramname">NOBAG</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">const</span> <span class="keyword">auto</span> <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">linearize_index_kernel_</a> =                                     \</div>
+<div class="line">      (<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">vbe</a> ? <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">linearize_index_kernel&lt;index_t, INFO_ACC_T, NOBAG, true&gt;</a>      \</div>
+<div class="line">           : <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">linearize_index_kernel&lt;index_t, INFO_ACC_T, NOBAG, false&gt;</a>);   \</div>
+<div class="line">  <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">linearize_index_kernel_</a>&lt;&lt;&lt;                                               <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">\</a></div>
+<div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">      div_round_up</a>(<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_B</a>, kMaxThreads),                                  \</div>
+<div class="line">      kMaxThreads,                                                         \</div>
+<div class="line">      0,                                                                   \</div>
+<div class="line">      at::cuda::getCurrentCUDAStream()&gt;&gt;&gt;(                                 \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">hash_size_cumsum</a>.packed_accessor32&lt;<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">RestrictPtrTraits</a>&gt;(), \</div>
+<div class="line">      <a class="code hl_variable" href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">indices</a>.packed_accessor32&lt;<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">RestrictPtrTraits</a>&gt;(),          \</div>
+<div class="line">      <a class="code hl_variable" href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">offsets</a>.packed_accessor32&lt;<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">RestrictPtrTraits</a>&gt;(),          \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">infos</a>.packed_accessor32&lt;<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">INFO_ACC_T</a>, 1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">RestrictPtrTraits</a>&gt;(),         \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">linear_indices</a>.packed_accessor32&lt;<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a>, 1, <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">RestrictPtrTraits</a>&gt;(),   \</div>
+<div class="line">      <a class="code hl_variable" href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">info_B_num_bits</a>,                                                     \</div>
+<div class="line">      <a class="code hl_variable" href="namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f">info_B_mask</a>,                                                         \</div>
+<div class="line">      (1u &lt;&lt; (<a class="code hl_variable" href="split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd">DEFAULT_INFO_NUM_BITS</a> - <a class="code hl_variable" href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">info_B_num_bits</a>)) - 1,               \</div>
+<div class="line">      (1u &lt;&lt; <a class="code hl_variable" href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">info_B_num_bits</a>) - 1,                                         \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">vbe</a> ? <span class="keyword">reinterpret_cast&lt;</span><a class="code hl_variable" href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a>*<span class="keyword">&gt;</span>(<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">vbe_b_t_map</a>.value().data_ptr())    \</div>
+<div class="line">          : <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">nullptr</a>,                                                       \</div>
+<div class="line">      <a class="code hl_class" href="classfbgemm__gpu_1_1_fixed_divisor.html">FixedDivisor</a>(<a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">total_B</a> / <a class="code hl_variable" href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">T</a>));                                          <a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">\</a></div>
+<div class="line"><a class="code hl_class" href="classfbgemm__gpu_1_1_tensor_accessor.html">  C10_CUDA_KERNEL_LAUNCH_CHECK</a>()</div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_fixed_divisor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_fixed_divisor.html">fbgemm_gpu::FixedDivisor</a></div><div class="ttdef"><b>Definition</b> fbgemm_cuda_utils.cuh:3610</div></div>
+<div class="ttc" id="aclassfbgemm__gpu_1_1_tensor_accessor_html"><div class="ttname"><a href="classfbgemm__gpu_1_1_tensor_accessor.html">fbgemm_gpu::TensorAccessor</a></div><div class="ttdef"><b>Definition</b> fbgemm_tensor_accessor.h:128</div></div>
+<div class="ttc" id="agen__embedding__backward__split__grad_8cu_html_abe53421bcec0b67763c3ed41e3a2a2ad"><div class="ttname"><a href="gen__embedding__backward__split__grad_8cu.html#abe53421bcec0b67763c3ed41e3a2a2ad">uint32_t</a></div><div class="ttdeci">template __global__ uint32_t</div><div class="ttdef"><b>Definition</b> gen_embedding_backward_split_grad.cu:137</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a2bef322c4183a01bc9d8e3c084ae1d15"><div class="ttname"><a href="namespacefbgemm__gpu.html#a2bef322c4183a01bc9d8e3c084ae1d15">fbgemm_gpu::T</a></div><div class="ttdeci">__global__ const int32_t const int32_t T</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:21</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_a4558e86e39e5639ec4665246b76df453"><div class="ttname"><a href="namespacefbgemm__gpu.html#a4558e86e39e5639ec4665246b76df453">fbgemm_gpu::info_B_num_bits</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ const at::PackedTensorAccessor32&lt; index_t, 1, at::RestrictPtrTraits &gt; const int32_t *__restrict__ const int32_t *__restrict__ const int32_t *__restrict__ const int32_t info_B_num_bits</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:128</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aabefe307b5a16f2e2d2c5cc6c74719b6"><div class="ttname"><a href="namespacefbgemm__gpu.html#aabefe307b5a16f2e2d2c5cc6c74719b6">fbgemm_gpu::indices</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ indices</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:26</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_aad33dfd216d9ea27b505a304ca3e32da"><div class="ttname"><a href="namespacefbgemm__gpu.html#aad33dfd216d9ea27b505a304ca3e32da">fbgemm_gpu::offsets</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ const index_t *__restrict__ offsets</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:25</div></div>
+<div class="ttc" id="anamespacefbgemm__gpu_html_acdf5304fcbfbc6f85054b8c45407691f"><div class="ttname"><a href="namespacefbgemm__gpu.html#acdf5304fcbfbc6f85054b8c45407691f">fbgemm_gpu::info_B_mask</a></div><div class="ttdeci">__global__ const int32_t const int32_t const scalar_t *__restrict__ const index_t *__restrict__ scalar_t *__restrict__ const at::PackedTensorAccessor32&lt; index_t, 1, at::RestrictPtrTraits &gt; const int32_t *__restrict__ const int32_t *__restrict__ const int32_t *__restrict__ const int32_t const uint32_t info_B_mask</div><div class="ttdef"><b>Definition</b> sparse_batched_unary_embeddings.cu:129</div></div>
+<div class="ttc" id="asplit__embeddings__utils_8cuh_html_a27002d5a8e75578957e448377c440dbd"><div class="ttname"><a href="split__embeddings__utils_8cuh.html#a27002d5a8e75578957e448377c440dbd">DEFAULT_INFO_NUM_BITS</a></div><div class="ttdeci">constexpr int DEFAULT_INFO_NUM_BITS</div><div class="ttdef"><b>Definition</b> split_embeddings_utils.cuh:17</div></div>
+</div><!-- fragment -->
+</div>
+</div>
+<h2 class="groupheader">Typedef Documentation</h2>
+<a id="abc1167888f441327c12e300780ee568a" name="abc1167888f441327c12e300780ee568a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc1167888f441327c12e300780ee568a">&#9670;&#160;</a></span>Tensor</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">using</a> <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> = at::Tensor</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="aee01a74e30c13b20ffba0c0737c44425" name="aee01a74e30c13b20ffba0c0737c44425"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee01a74e30c13b20ffba0c0737c44425">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">info_acc_t</a> &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a91943a24b789081d81916b94ee7789ad" name="a91943a24b789081d81916b94ee7789ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91943a24b789081d81916b94ee7789ad">&#9670;&#160;</a></span>__launch_bounds__() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;<a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">index_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">typename</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">info_acc_t</a> , <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> nobag, <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a> vbe&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">__global__</a> __launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">kMaxThreads</td>          <td class="paramname"><span class="paramname"></span></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae27e2b1fda2a338ce8f7f2207b580e7f" name="ae27e2b1fda2a338ce8f7f2207b580e7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae27e2b1fda2a338ce8f7f2207b580e7f">&#9670;&#160;</a></span>asynchronous_complete_cumsum()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> asynchronous_complete_cumsum </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>t_in</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a569a769e3233130cce363d9ae151bd26" name="a569a769e3233130cce363d9ae151bd26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a569a769e3233130cce363d9ae151bd26">&#9670;&#160;</a></span>transpose_embedding_input()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="ops__utils_8h.html#a29047de4dfe891435d8254535634ac1d">DLL_PUBLIC</a> std::tuple&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; transpose_embedding_input </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>hash_size_cumsum</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_hash_size_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a></td>          <td class="paramname"><span class="paramname"><em>offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>nobag</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>vbe_b_t_map</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_num_bits</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>info_B_mask</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>total_unique_indices</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">bool</a></td>          <td class="paramname"><span class="paramname"><em>is_index_select</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> c10::optional&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">Tensor</a> &gt; &amp;</td>          <td class="paramname"><span class="paramname"><em>total_L_offsets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>fixed_L_per_warp</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classfbgemm__gpu_1_1_tensor_accessor.html">const</a> <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_warps_per_feature</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/uvm__cache__miss__emulate__test_8cpp.html b/uvm__cache__miss__emulate__test_8cpp.html
new file mode 100644
index 000000000..c775eed4f
--- /dev/null
+++ b/uvm__cache__miss__emulate__test_8cpp.html
@@ -0,0 +1,184 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/test/uvm_cache_miss_emulate_test.cpp File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_13e138d54eb8818da29c3992edef070a.html">test</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">uvm_cache_miss_emulate_test.cpp File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;gtest/gtest.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="split__embeddings__cache__cuda_8cuh.html">fbgemm_gpu/split_embeddings_cache_cuda.cuh</a>&quot;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="ad12ee38ec43f8659ee8ce4f63f3857f4" name="ad12ee38ec43f8659ee8ce4f63f3857f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad12ee38ec43f8659ee8ce4f63f3857f4">&#9670;&#160;</a></span>generate_lxu_cache_locations()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> generate_lxu_cache_locations </td>
+          <td>(</td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_requests</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>num_sets</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>associativity</em><span class="paramdefsep"> = </span><span class="paramdefval">32</span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9959da4e8495e9b74415473535a9c3e" name="ac9959da4e8495e9b74415473535a9c3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9959da4e8495e9b74415473535a9c3e">&#9670;&#160;</a></span>run_emulate_cache_miss()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">std::pair&lt; <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a>, <a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a> &gt; run_emulate_cache_miss </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__codegen__cuda_8cu.html#abc1167888f441327c12e300780ee568a">at::Tensor</a></td>          <td class="paramname"><span class="paramname"><em>lxu_cache_locations</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#ac4ebc0de2e60165af8333b6f4eab3e70">int64_t</a></td>          <td class="paramname"><span class="paramname"><em>enforced_misses_per_256</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const bool</td>          <td class="paramname"><span class="paramname"><em>gather_uvm_stats</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acdba631ddc8a5dc4e4ee2c02959d3e14" name="acdba631ddc8a5dc4e4ee2c02959d3e14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acdba631ddc8a5dc4e4ee2c02959d3e14">&#9670;&#160;</a></span>TEST() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">uvm_cache_miss_emulate_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">enforced_cache_miss</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab721325808448b876b97faee4b751b9" name="aab721325808448b876b97faee4b751b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab721325808448b876b97faee4b751b9">&#9670;&#160;</a></span>TEST() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">TEST </td>
+          <td>(</td>
+          <td class="paramtype">uvm_cache_miss_emulate_test</td>          <td class="paramname"><span class="paramname">, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">no_cache_miss</td>          <td class="paramname"><span class="paramname"></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>
diff --git a/verify__fp16__stochastic__benchmark_8cu.html b/verify__fp16__stochastic__benchmark_8cu.html
new file mode 100644
index 000000000..bc5887ce2
--- /dev/null
+++ b/verify__fp16__stochastic__benchmark_8cu.html
@@ -0,0 +1,429 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.10.0"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>fbgemm_gpu: /__w/FBGEMM/FBGEMM/fbgemm_gpu/bench/verify_fp16_stochastic_benchmark.cu File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<script type="text/javascript" src="clipboard.js"></script>
+<script type="text/javascript" src="cookie.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">fbgemm_gpu
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.10.0 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_a36c4719283424f51e58ca3678e5dea3.html">bench</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">verify_fp16_stochastic_benchmark.cu File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;c10/cuda/CUDAException.h&gt;</code><br />
+<code>#include &lt;cuda.h&gt;</code><br />
+<code>#include &lt;cuda_fp16.h&gt;</code><br />
+<code>#include &lt;curand.h&gt;</code><br />
+<code>#include &lt;curand_kernel.h&gt;</code><br />
+<code>#include &lt;unistd.h&gt;</code><br />
+<code>#include &lt;chrono&gt;</code><br />
+<code>#include &lt;iostream&gt;</code><br />
+<code>#include &lt;vector&gt;</code><br />
+</div><h2 class="groupheader">Function Documentation</h2>
+<a id="abbb1b78a4249b42b116429258ac56174" name="abbb1b78a4249b42b116429258ac56174"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abbb1b78a4249b42b116429258ac56174">&#9670;&#160;</a></span>convert_float_to_half_assemblefloat()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void convert_float_to_half_assemblefloat </td>
+          <td>(</td>
+          <td class="paramtype">half *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>r</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46898a808f7408d99e7ad4c7fc0fea2a" name="a46898a808f7408d99e7ad4c7fc0fea2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46898a808f7408d99e7ad4c7fc0fea2a">&#9670;&#160;</a></span>convert_float_to_half_bitcarry()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void convert_float_to_half_bitcarry </td>
+          <td>(</td>
+          <td class="paramtype">half *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a169a7087c41e8efae2d09cfc78fa802e" name="a169a7087c41e8efae2d09cfc78fa802e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a169a7087c41e8efae2d09cfc78fa802e">&#9670;&#160;</a></span>convert_float_to_half_direct()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void convert_float_to_half_direct </td>
+          <td>(</td>
+          <td class="paramtype">half *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab109332ca0fae3f39a7d000348a1401c" name="ab109332ca0fae3f39a7d000348a1401c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab109332ca0fae3f39a7d000348a1401c">&#9670;&#160;</a></span>convert_float_to_half_shortrand()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void convert_float_to_half_shortrand </td>
+          <td>(</td>
+          <td class="paramtype">half *</td>          <td class="paramname"><span class="paramname"><em>dst</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>src</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>r</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afb0f683c8db4e3b5d5fd504735c60b25" name="afb0f683c8db4e3b5d5fd504735c60b25"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb0f683c8db4e3b5d5fd504735c60b25">&#9670;&#160;</a></span>float_to_sto_half_assemblefloat()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ half float_to_sto_half_assemblefloat </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>w</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>          <td class="paramname"><span class="paramname"><em>rand</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0fa16f5c4aa1d84c03f25daeb10e9422" name="a0fa16f5c4aa1d84c03f25daeb10e9422"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0fa16f5c4aa1d84c03f25daeb10e9422">&#9670;&#160;</a></span>float_to_sto_half_bitcarry()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ half float_to_sto_half_bitcarry </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>w</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0a4d95d246fb468f1b26eace73794f3" name="af0a4d95d246fb468f1b26eace73794f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0a4d95d246fb468f1b26eace73794f3">&#9670;&#160;</a></span>float_to_sto_half_direct()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ half float_to_sto_half_direct </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>w</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aecab575916373f334a644238b6e02cf2" name="aecab575916373f334a644238b6e02cf2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecab575916373f334a644238b6e02cf2">&#9670;&#160;</a></span>float_to_sto_half_shortrand()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ half float_to_sto_half_shortrand </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>w</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a></td>          <td class="paramname"><span class="paramname"><em>rand</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65d8faf79602cb52dbf1c3dc90db0cbd" name="a65d8faf79602cb52dbf1c3dc90db0cbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65d8faf79602cb52dbf1c3dc90db0cbd">&#9670;&#160;</a></span>flush_cache()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void flush_cache </td>
+          <td>(</td>
+          <td class="paramtype">std::vector&lt; char &gt;</td>          <td class="paramname"><span class="paramname"><em>flush</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>d_flush</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>d_flush2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>cache_size</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>do_write</em><span class="paramdefsep"> = </span><span class="paramdefval"><a class="el" href="gen__embedding__forward__split__unweighted__kernel_8cu.html#a0ad31f76c1f9349ef8b21ca138e897cc">false</a></span></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab211bd95de3d67a08c95c5d7f070dfcb" name="ab211bd95de3d67a08c95c5d7f070dfcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab211bd95de3d67a08c95c5d7f070dfcb">&#9670;&#160;</a></span>flush_gpu()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ void flush_gpu </td>
+          <td>(</td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>d_flush</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>d_flush2</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool</td>          <td class="paramname"><span class="paramname"><em>do_write</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa292d49c7c13666d79ff4c646b5284f0" name="aa292d49c7c13666d79ff4c646b5284f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa292d49c7c13666d79ff4c646b5284f0">&#9670;&#160;</a></span>gen_8bit_random()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void gen_8bit_random </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__forward__kernel_8cu.html#a1360e7840ee58417b26bf9445f94c59d">uint8_t</a> *</td>          <td class="paramname"><span class="paramname"><em>d_random_number</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>test_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab5c51c16cea74c9decd6a2c957b515d9" name="ab5c51c16cea74c9decd6a2c957b515d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5c51c16cea74c9decd6a2c957b515d9">&#9670;&#160;</a></span>gen_data()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">void gen_data </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> *</td>          <td class="paramname"><span class="paramname"><em>d_f32_array</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>test_size</em></span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ddf1224851353fc92bfbff6f499fa97" name="a0ddf1224851353fc92bfbff6f499fa97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ddf1224851353fc92bfbff6f499fa97">&#9670;&#160;</a></span>main()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">int main </td>
+          <td>(</td>
+          <td class="paramtype">int</td>          <td class="paramname"><span class="paramname"><em>argc</em>, </span></td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">char *</td>          <td class="paramname"><span class="paramname"><em>argv</em>[]</span>&#160;)</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab29b4915253bcafe11f5d95cfb227c0b" name="ab29b4915253bcafe11f5d95cfb227c0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab29b4915253bcafe11f5d95cfb227c0b">&#9670;&#160;</a></span>two_to_e()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">__device__ <a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a> two_to_e </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="gen__batch__index__select__dim0__backward__kernel__cta_8cu.html#a6df94b891e47f19e9fa76b529e49cdda">float</a></td>          <td class="paramname"><span class="paramname"><em>X</em></span></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.10.0
+</small></address>
+</body>
+</html>

▼Nfbgemm_gpu
CComparator	Warp bitonic K/V sorting code from @jhj
▼Nfbgemm_gpu
CBitonicSort
CComparator	Warp bitonic K/V sorting code
CDefaultPtrTraits
Cenum_registration
CFixedDivisor
CGenericPackedTensorAccessor
CGenericPackedTensorAccessor< T, 1, PtrTraits, index_t >
CGenericPackedTensorAccessorBase
CHalf4
CPermutePooledEmbsFunction
CPermutePooledEmbsFunctionSplit
Crk_state
CSharedMemory
CSharedMemory< double >
CSharedMemory< float >
CSharedMemory< int32_t >
CSharedMemory< int64_t >
CSharedMemory< Vec4T< at::acc_type< double, true > > >
CSharedMemory< Vec4T< at::acc_type< float, true > > >
CStochasticRoundingRNGState
CTensorAccessor
CTensorAccessor< T, 1, PtrTraits, index_t >
CTensorAccessorBase
CVec4AccT
CVec4StepT
CVec4StepT< STEP, at::Half >
CVec4StepT< STEP, float >
CVec4StepT< STEP, uint8_t >
CVec4T
CVec4T< at::BFloat16 >
CVec4T< at::Half >
CVec4T< double >
CVec4T< float >
CVecNT
CVecNT< 1, PrimitiveType::FP >
CVecNT< 16, PrimitiveType::INT >
CVecNT< 2, PrimitiveType::FP >
CVecNT< 4, PrimitiveType::FP >
CVecNT< 4, PrimitiveType::INT >
CVecNT< 8, PrimitiveType::INT >
CWeightRow
▼Ninternal
CHyperCompressedSparseColumn
▼Nssd
CEmbeddingRocksDB
CInitializer
Clog2_calc
Clog2_calc_
Clog2_calc_< 0 >
CStackArray
CVec4Type
CVec4Type< at::Half >
CVec4Type< float >
CVec4Type< uint8_t >
Tensor batch_index_select_dim0_cpu	(	Tensor	inputs,
		Tensor	indices,
		std::vector< int64_t >	input_num_indices,
		std::vector< int64_t >	input_rows,
		std::vector< int64_t >	input_columns,
		const bool	permute_output_dim_0_1 )
Tensor batch_index_select_dim0_codegen_backward_cuda	(	const Tensor &	grad_output,
		const Tensor &	dev_weights,
		const Tensor &	weights_offsets,
		const Tensor &	D_offsets,
		const int64_t	max_D,
		const Tensor &	hash_size_cumsum,
		const int64_t	total_hash_size_bits,
		const Tensor &	indices,
		const int64_t	max_segment_length_per_warp,
		const Tensor &	grad_offsets,
		const Tensor &	total_L_offsets,
		const int32_t	fixed_L_per_warp,
		const int32_t	num_warps_per_feature,
		const bool	permute_output_dim_0_1 )
Tensor batch_index_select_dim0_codegen_forward_cuda	(	const Tensor &	dev_weights,
		const Tensor &	weights_offsets,
		const Tensor &	D_offsets,
		const int64_t	max_D,
		const Tensor &	indices,
		const int64_t	output_dtype,
		const Tensor &	output_offsets,
		const Tensor &	total_L_offsets,
		const int64_t	output_size,
		const int32_t	fixed_L_per_warp,
		const int32_t	num_warps_per_feature,
		const bool	permute_output_dim_0_1 )
Tensor batch_index_select_dim0_gpu	(	Tensor	inputs,
		Tensor	indices,
		std::vector< int64_t >	input_num_indices,
		std::vector< int64_t >	input_rows,
		std::vector< int64_t >	input_columns,
		const bool	permute_output_dim_0_1 )
FBGEMM_OP_DISPATCH	(	CUDA	,
		"batched_dense_vec_jagged_2d_mul_backward"	,
		fbgemm_gpu::batched_dense_vec_jagged_2d_mul_backward	)
FBGEMM_OP_DISPATCH	(	CUDA	,
		"batched_dense_vec_jagged_2d_mul_forward"	,
		fbgemm_gpu::batched_dense_vec_jagged_2d_mul_forward	)
void flush_cache	(	int	cache_size_mb = 40,
		bool	do_write = false )
void generate_random_table	(	float *	d_f32_table,
		unsigned	size )